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机 器 学 习 与 R 语 诗 


MACHINE LEARNING WITH R 





随 着 大 数据 的 概念 变 得 越 来 越 流 行 ， 对 数据 的 探索 、 分 析 和 预测 成 为 大 数据 分 析 领 域 的 基本 技能 之 一 。 作 为 
探索 和 分 析 数 据 的 基本 理论 和 工具 ， 机 器 学 习 和 数据 挖掘 成 为 时 下 炙手可热 的 技术 。R 作 为 功能 强大 并 且 免 费 的 
数据 分 析 工 具 ， 在 数据 分 析 领 域 获得 了 越 来 越 多 用 户 的 青睐 。 


本 书 通过 丰富 的 实际 案例 来 探索 如 何 应 用 R 来 进行 现实 世界 问题 的 机 器 学 习 ， 如 何 从 数据 中 获取 可 以 付 诸 行 
动 的 洞察 力 。 本 书 案例 清晰 而 实用 ，- 讲 解 循序 渐进 ， 是 一 本 用 R 进 行 机 器 学 习 的 实用 指南 ， 既 适用 于 机 器 学 习 的 
初学 者 ， 也 适用 于 具有 一 定 经 验 的 老手 ， 本 书 将 帮助 他 们 回答 有 关 民 的 所 有 问题 。 


通过 阅读 本 书 ， 你 将 学 到 : 

@。 用 R 准 备用 于 机 器 学 习 的 数据 

@ ”用 民 进 行 数据 探索 和 数据 可 视 化 

@ ”用 k 近 邻 方 法 进行 数据 分 类 

@ ”应 用 朴素 贝 叶 斯 方法 进行 数据 分 类 

@ ”应 用 决策 树 、 规 则 和 支持 向 量 机 进行 预测 

®@ ”用 线性 回归 预测 数值 型 数据 

@ ”用 神经 网 络 对 数据 建 模 

@ ”应 用 购物 篮 分 析 的 关联 规则 找 出 数据 中 的 模式 
®@ ”通过 对 数据 聚 类 进行 市 场 细 分 
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过 srcecrer 推荐 序 


You have probably encountered the output of machine learning in many ways. When you read 
your email, spam has probably already been filtered out by a machine learning algorithm - most 
likely a Bayesian one. When you surf the web, you will see ads generated by machine learning 
models that predict what is likely to appeal to you. When you apply for a loan or credit card, 
approval will depend on the output of a machine learning model. When someone steals your credit 
card, the bank is hoping that its machine learning algorithm will identify fraudulent purchases as 
soon as they happen. 

In its early days, the predictive modeling of machine learning was the province of very 
expensive statistical software, often bundled with consulting services to set up data mining systems. 
The advent of R has brought machine learning within the reach of smaller companies, startups and 
even individuals. Many big data-oriented companies now rely primarily on open source tools like 
R to deploy machine learning. 

This book can be your guide to learning about the business context of machine learning, and 


also to the actual implementation of machine learning methods using R. 


[ 你 可 能 以 多 种 方式 接触 过 机 器 学 习 的 输出 结果 。 当 你 阅读 电子 邮件 时 ， 垃 圾 邮件 可 
能 已 经 被 某 个 机 器 学 习 算 法 (很 可 能 是 贝 叶 斯 算法 ) 过 滤 掉 了 ; 当 你 在 网 页 上 浏览 时 ， 你 
可 能 会 看 到 一 些 广告 ， 它 们 是 由 机 器 学 习 算法 预测 出 的 可 能 会 吸引 你 的 广告 ; 当 你 申请 贷 
款 或 者 信用 卡 时 ， 申 请 的 批准 与 否 取决 于 机 器 学 习 模 型 的 输出 结果 ; 当 有 人 盗 取 了 你 的 信 
用 卡 ， 发 卡 银 行 希 望 当 该 卡 被 用 于 欺诈 消费 时 他 们 部 署 的 机 器 学 习 算 法 能 够 识别 出 该 类 偷 
盗 消费 。 

在 早 些 时 候 ， 具 有 机 器 学 习 的 预测 模型 只 有 很 昂贵 的 统计 软件 才 涉 及 ， 它 们 经 常 和 咨询 
服务 一 起 作为 数据 挖掘 系统 的 一 部 分 。R 软件 出 现 之 后 ， 小 公司 、 初 创 公司 ， 甚 至 个 人 都 开 
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台 应 用 机 器 学 习 。 现 在 ， 很 多 面向 数据 的 大 公司 主要 依靠 像 R 软件 这 样 的 开源 工具 来 部 署 他 
们 的 机 器 学 习 应 用 。 

本 书 既 可 以 作为 你 了 解 机 器 学 习 应 用 的 商业 背景 的 指南 ， 也 可 以 作为 应 用 R 来 实现 机 
名 学 习 方 法 的 指导 。 ] 


fo 


美国 统计 教育 学 院 , Statistics.com 在 线 课程 网 站 总 裁 
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随 着 大 数据 的 概念 变 得 越 来 越 流行 ， 对 数据 的 探索 、 分 析 和 预测 成 为 大 数据 分 析 领 域 的 
基本 技能 之 一 。 作 为 探索 和 分 析 数 据 的 基本 理论 和 工具 ， 机 器 学 习 和 数据 挖掘 成 为 时 下 的 热 
门 技术 之 一 。R 作为 功能 强大 并 且 免 费 的 数据 分 析 工 具 ， 在 数据 分 析 领 域 获得 了 越 来 越 多 用 
户 的 青睐 。 本 书 介 绍 如 何 应 用 R 来 进行 现实 世界 问题 的 机 器 学 习 ， 以 及 如 何 从 数据 中 获取 可 
以 付 诸 行动 的 洞察 力 。 

本 书 的 作者 Brett Lantz 在 机 器 学 习 领 域 具有 十 余年 的 实践 经 验 。 他 在 本 书 中 介绍 了 多 种 
重要 的 机 器 学 习 算法 。 在 给 出 相应 的 机 器 学 习 算 法 的 核心 理论 之 后 ， 都 给 出 了 一 个 实际 的 案 
例 ， 从 对 案例 数据 的 探索 、 整 理 ， 到 模型 的 建立 和 模型 的 评估 ， 每 一 步 都 给 出 了 详尽 的 步骤 
和 R 代码。 

本 书 共 分 12 章 。 第 1 章 介绍 机 器 学 习 的 基本 概念 和 理论 ， 并 介绍 用 于 机 器 学 习 的 R 软 
件 环境 的 准备 。 第 2 章 介 绍 如 何 应 用 R 来 管理 数据 ， 进 行 数据 的 探索 分 析 和 数据 可 视 化 。 第 
3 章 到 第 9 章 介绍 典型 的 机 器 学 习 算法 和 案例 ， 包 括 : k 近邻 分 类 算法 、 朴 素 贝 叶 斯 算法 、 
决策 树 和 规则 树 、 回 归 预 测 、 黑 盒 算法 一 一 神经 网 络 和 支持 向 量 机 、 关 联 分 析 、k 均值 聚 类 . 
伴随 着 这 些 算 法 的 介绍 ， 书 中 给 出 了 大 量 的 实际 案例 ， 并 给 出 了 详细 的 分 析 步 又 ， 例 如 乳腺 
癌 的 判断 、 垃 圾 短信 的 过 滤 、 贷 款 违约 的 预测 、 毒 葵 菇 的 判别 、 医 疗 费 用 的 预测 、 建 筑 用 混 
凝 土 强度 的 预测 、 光 学 字符 的 识别 、 超 市 购物 篮 关 联 分 析 以 及 市 场 细 分 等 。 第 10 章 介 绍 模 
型 性 能 评价 的 原理 和 方法 。 第 11 章 给 出 提高 模型 性 能 的 几 种 常用 方法 。 第 12 章 讨论 用 R 进 
行 机 器 学 习 时 可 能 遇 到 的 一 些 高 级 专题 ， 例 如 特殊 形式 的 数据 、 大 数据 集 的 处 理 、 并 行 计算 
和 CPU 计算 等 技术 。 

R 本 身 是 一 款 十 分 优秀 的 数据 分 析 和 数据 可 视 化 软件 ， 其 中 包括 大 量 用 于 机 器 学 习 的 添 
加 包 。 本 书 以 机 器 学 习 算 法 为 主线 ， 通 过 案例 学 习 的 形式 来 组 织 内 容 ， 脉 络 清晰 ， 并 且 各 章 
自 成 体系 。 读 者 可 以 从 头 逐 章 学 习 ， 也 可 以 找到 自己 所 需要 的 内 容 进行 学 习 。 读 者 只 需要 具 
有 有 的 一 些 基 本 知识 ， 不 需要 具备 机 器 学 习 的 深厚 基础 。 不 管 是 R 初学 者 ， 还 是 熟练 的 R 
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用 户 都 能 从 书 中 找到 对 自己 有 用 的 内 容 。 

译 者 曾经 应 用 本 书 的 部 分 内 容 进 行 教学 ， 学 生 都 反映 这 些 内 容 具 有 极 强 的 实用 价值 ， 许 
多 内 容 可 以 直接 或 者 略 加 修改 就 可 以 应 用 到 他 们 的 实际 工作 中 。 我 们 有 幸 受 机 械 工业 出 版 社 
委托 将 此 书 译 成 中 文 ， 希 望 中 文 版 的 出 版 能 够 给 国内 读者 学 习 R 与 机 器 学 习 带 来 方便 。 

在 本 书 的 翻译 过 程 中 ， 得 到 了 王 春 华 编辑 的 大 力 支持 和 帮助 。 本 书 责任 编辑 盛 思源 老 
师 具 有 丰富 的 经 验 ， 为 本 书 的 出 版 付出 了 大 量 的 劳动 ,这 里 对 她 们 的 支持 和 帮助 表示 衷心 的 
感谢 。 本 书 的 翻译 工作 由 李 洪 成 、 许 金 炜 和 李 舰 共同 完成 ， 丁 一 飞 协 助 翻译 了 本 书 的 部 分 内 
容 ， 全 书 由 李 洪 成 进行 修改 并 统一 定稿 。 

由 于 时 间 和 水 平 所 限 ， 难 免 会 有 不 当 之 处 ,希望 同行 和 读者 多 加 指正 。 


李 洪 成 
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机 器 学 习 的 核心 是 将 信息 转化 为 可 行动 智能 的 算法 。 这 一 事实 使 得 机 器 学 习 非 常 适合 于 
当今 的 大 数据 时 代 。 如 果 没 有 机 器 学 习 ， 要 跟 上 海量 信息 数据 流 的 步伐 几乎 是 不 可 能 的 。 

鉴于 R 不 断 增长 的 地 位 (R 是 一 个 跨 平 台 、 零 成 本 的 统计 编程 环境 )， 现 在 是 开始 使 用 机 
器 学 习 的 最 好 时 代 。R 提供 了 一 套 功能 强大 且 易 于 学 习 的 工具 ， 这 些 工 具 可 以 帮助 你 发 现 数 
据 背 后 隐藏 的 信息 。 

本 书 通过 将 实际 案例 与 核心 理论 知识 相 结合 ， 提 供 了 你 开始 将 机 器 学 习 应 用 到 你 自己 项 
目 中 所 需要 的 知识 。 


本 书 内 容 

第 1 章 介绍 了 用 来 定义 和 区 分 机 器 学 习 算法 的 术语 和 概念 ， 并 给 出 将 学 习 任务 与 适当 算 
法 相 匹 配 的 方法 。 

第 2 章 提供 了 一 个 在 R 中 自己 实际 动手 操作 数据 的 机 会 ， 并 讨论 了 基本 的 数据 结构 以 及 
用 于 加 载 、 探 索 和 理解 数据 的 程序 。 

第 3 章 教 你 如 何 理解 并 将 一 个 简单 且 功能 强大 的 学 习 算法 应 用 于 你 的 第 一 个 学 习 任 务 : 
识别 乳腺 癌 。 

第 4 章 揭示 了 用 于 先进 的 垃圾 邮件 过 滤 系 统 中 的 概率 的 基本 概念 ， 并 且 在 你 自己 建立 垃 
圾 邮件 过 滤器 的 过 程 中 ， 你 将 学 习 文本 挖掘 的 基本 知识 。 

第 5 章 探索 几 种 预测 精度 高 且 容 易 解 释 的 学 习 算法 。 我 们 将 把 这 几 种 算法 应 用 于 对 透明 
度 要 求 很 高 的 学 习 任务 中 。 

第 6 章 介绍 用 于 数值 预测 的 机 器 学 习 算 法 。 由 于 这 些 技术 在 很 大 程度 上 来 源 于 统计 学 领 
域 ， 所 以 你 还 将 学 习 理 解数 值 之 间 关 系 的 必要 分 析 指标 。 

第 7 章 介绍 两 个 极其 复杂 但 功能 强大 的 机 器 学 习 算 法 。 尽 管 其 中 的 数学 理论 可 能 会 让 人 
望 而 生 旦 ， 但 是 我 们 将 以 简单 的 术语 ， 通 过 例子 来 说 明 这 些 方法 的 内 部 运作 原理 。 
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第 8 章 揭示 许多 零售 商 所 使 用 的 推荐 系统 的 算法 。 如 果 你 曾经 想 知道 零售 商 如 何 比 你 自 
己 更 了 解 你 的 购物 习惯 ， 该 章 将 揭示 他 们 的 秘密 。 

第 9 章 介 绍 k 均值 聚 类 ， 该 算法 用 于 找 出 相关 个 体 的 聚 类 。 我 们 将 使 用 该 算法 来 确定 一 
个 基于 网 络 的 社区 特征 的 分 区 。 

第 10 章 提供 度量 机 器 学 习 项 目 是 否 成 功 的 信息 ， 并 给 出 了 机 器 学 习 算 法 在 未 来 数据 上 
性 能 的 一 个 可 靠 的 估计 。 

第 11 章 揭 示 了 在 机 器 学 习 竞 赛 中 排名 最 靠 前 的 团队 所 采用 的 方法 。 如 果 你 具有 竞争 意 
识 , 或 者 仅仅 想 获取 数据 中 尽 可 能 多 的 信息 ， 那 么 你 需要 将 这 些 技术 添加 到 你 的 知识 库 中 。 

第 12 章 讨论 机 器 学 习 的 前 沿 主题 。 从 使 用 大 数据 到 如 何 使 R 运行 速度 更 快 ， 这 些 主题 
将 会 帮助 你 拓展 使 用 R 进行 数据 挖掘 的 界限 。 


学 习 本 书 的 准备 知识 
本 书 的 例子 是 基于 微软 的 Windows 系统 和 Mac OS X 系统 的 R 2.15.3 进行 编写 和 测试 
的 ， 不 过 对 于 任意 最 新 的 R 版 本 ， 这 些 例子 基本 上 都 能 运行 。 


本 书 适用 对 象 

本 书 适 合 于 任何 希望 使 用 数据 来 采取 行动 的 人 。 或 许 你 已 经 对 机 器 学 习 有 些 了 解 ， 但 从 
来 没有 使 用 过 R ; 或 许 你 已 经 对 于 R 有 些 了 解 ， 但 机 器 学 习 对 你 来 说 是 全 新 的 知识 。 无 论 何 
种 情况 ， 本 书 将 让 你 快速 上 手 。 稍 微 了 解 一 些 基 本 的 数学 知识 和 编程 概念 将 是 有 帮助 的 ， 但 
是 这 些 先 验 知识 并 不 是 必需 的 ， 你 需要 具有 的 就 是 好 奇 心 。 
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第 1 章 : CHare Y 


机 器 学 习 简 介 pe 


如 果 科 幻 故事 是 可 信 的 ， 那 么 教会 机 器 学 习 将 会 不 可 避免 地 导致 机 器 和 其 制造 者 之 间 的 
末日 战争 。 在 计算 机 使 用 的 早期 计算 机 被 教会 玩 井 字 棋 和 国际 象棋 这 样 一 些 简 单 的 游戏 。 
后 来 ， 机 器 被 用 来 控制 交通 信号 灯 和 通信 ， 随 后 用 来 控制 军用 无 人 机 和 导弹 。 一 旦 计算 机 有 
感知 力 并 且 知道 如 何 教会 他 们 自己 ， 机 器 的 发 展 将 产生 不 祥 的 改变 : 计算 机 不 再 需要 人 类 程 
序 员 了 ， 人 类 那 时 也 就 被 “删除 ”(deleted) 了 。 

幸运 的 是 ， 在 写本 书 的 时 候 ， 机 器 还 是 需要 用 户 来 进行 输入 的 。 

人 们 对 机 器 学 习 的 印象 可 能 深 受 那些 大 众 媒体 中 所 描述 的 人 工 智 能 故事 的 影响 。 尽 管 这 
些 故事 中 有 真实 世界 的 迹象 ， 但 实际 上 机 器 学 习 注 重 于 更 加 现实 的 应 用 。 教 会 计算 机 学 习 这 
项 工作 更 多 时 候 是 与 特定 问题 联系 在 一 起 ， 比 如 说 让 计算 机 学 会 玩 游戏 、 探 究 哲 学 或 者 回答 
一 些 简单 的 问题 。 机 器 学 习 更 像 是 培训 员工 ， 而 不 是 养育 孩子 。 

把 这 些 套话 放 在 一 边 ， 在 本 章 结束 时 ， 你 会 对 机 器 学 习 有 更 加 清晰 的 理解 。 本 章 将 介绍 
一 些 基 本 概念 ， 通 过 它们 来 定义 和 区 分 常用 的 机 器 学 习 方 法 。 

本 章 中 ， 你 将 会 学 到 下 列 知识 : 

口 机 器 学 习 的 起 源 及 其 实际 应 用 。 

口 知识 是 如 何在 计算 机 中 定义 和 表达 的 。 

口 用 来 区 分 机 器 学 习 方 法 的 基本 概念 。 

总 之 ， 可 以 说 机 器 学 习 提供 了 应 用 计算 机 并 把 数据 转换 成 可 行动 的 知识 的 工具 集合 。 本 
书 就 是 让 你 了 解 这 一 切 是 怎么 实现 的 。 
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1.1 机 器 学 习 的 起 源 


自从 我 们 出 生 以 来 ,我们 就 和 各 种 数据 打交道 。 我 们 身体 的 感官 一 一 眼睛 、 耳 采 、 鼻 
子 、 舌 头 以 及 神经 一 直 被 数据 包围 着 ， 大 脑 把 它们 转化 成 视觉 、 听 觉 、 嗅 觉 、 味 觉 和 感知 。 
通过 语言 的 交流 ， 我 们 得 以 和 他 人 分 享 这 些 感受 。 

最 早 的 数据 库 记 录 了 可 观测 环境 中 的 信息 。 宇 航 员 记录 行星 和 恒星 的 模式 ; 生物 学 家 记 
录 杂 交 植 物 和 动物 的 实验 结果 ; 城市 记录 税收 、 疾 病 暴发 情况 以 及 人 口 数量 。 所 有 这 些 都 要 
求人 们 先 观察 ， 然 后 再 记录 观察 的 结果 。 现 在 ， 由 于 不 断 发 展 的 计算 机 数据 库 的 应 用 ， 这 些 
观察 的 过 程 逐 步 自动 化 ， 记 录 也 变 得 系统 化 。 

电子 传感器 的 发 明 使 得 可 以 记录 的 数据 更 加 丰富 。 专 用 的 传感器 可 以 观测 、 可 以 听 声 
音 、 可 以 闻 味道 ， 也 可 以 感受 环境 。 这 些 传感器 处 理 数据 的 方式 和 人 类 完全 不 同 ， 很 多 情况 
下 ， 这 是 传感器 的 优势 。 由 于 不 用 把 原始 数据 转换 成 人 类 的 语言 ， 所 以 原始 的 传感器 数据 保 
留 了 数据 的 客观 性 。 

很 重要 的 一 点 是 ， 尽 管 传 感 器 不 会 对 观测 对 象 产生 主观 成 分 ， 但 是 它们 也 不 

小、 一 定 报告 真实 情况 (如 果真 实情 况 可 以 被 界定 的 话 )。 与 拍摄 彩色 照片 的 相 

机 相 比 ， 拍 摄 黑白 照片 的 相机 可 能 会 给 出 与 拍摄 环境 完全 不 同 的 写照 。 类 似 
地 ， 显 微 镜 对 事实 的 描绘 和 望远镜 的 描绘 也 是 截然 不 同 的 。 





在 数据 库 和 传感器 之 间 ， 我 们 生活 的 方方面面 都 被 记录 下 来 。 记 录 政 府 、 商 业 和 个 人 信 
息 并 报告 他 们 生活 中 各 方面 的 信息 。 气 象 传感器 记录 温度 和 气压 ， 监 视 探头 监视 着 人 行道 和 
地 铁 站 ， 各 种 电子 行为 如 交易 、 通 话 、 建 立 友 好 关系 以 及 很 多 其 他 的 行为 都 会 被 监控 。 

根据 如 此 庞大 的 数据 量 ， 一 些 人 声称 我 们 进入 了 大 数据 的 时 代 ， 这 可 能 有 一 点 哗 众 取 
宠 。 人 类 一 直 身 处 数据 之 中 。 使 当今 这 个 时 代 变 得 与 众 不 同 的 是 我 们 更 容易 获得 数据 。 仅 仅 
一 次 网 络 搜索 ， 经 过 手指 的 点 击 ， 大 量 有 趣 的 数据 变 得 更 容易 获取 。 我 们 现在 生活 在 一 个 大 
量 数据 可 以 直接 被 机 器 处 理 的 时 代 。 只 要 能 够 理解 数据 中 存在 的 有 规律 的 模式 ， 这 其 中 的 很 
多 信息 都 会 成 为 有 潜力 的 决策 信息 。 

机 器 学 习 的 研究 领域 是 发 明 计 算 机 算法 ， 把 数 
据 转 化 为 智能 行为 。 这 个 领域 是 在 现 有 数据 、 统 计 
方法 以 及 计算 能 力 迅 速 并 且 同 步 发 展 的 环境 下 发 展 
起 来 的 。 数 据 量 的 增加 使 得 计算 能 力 增强 成 为 必须 
条 件 ， 而 计算 能 力 的 增强 又 反 过 来 促进 了 分 析 大 数 
据 的 统计 方法 的 发 展 。 这 就 创造 了 一 个 闭环 式 的 发 
展 ， 它 使 得 更 多 更 加 有 趣 的 数据 得 以 收集 。 

机 融 学 习 的 一 个 紧密 相关 的 学 科 是 数据 挖掘 ， 
它 涉及 从 大 型 的 数据 库 中 产生 新 的 洞察 (不 要 把 它 和 
“挖掘 数据 ” 相 混淆 ,“ 挖 掘 数据 ”是 指 挑选 最 合适 的 数据 来 支持 某 个 理论 的 行为 )。 尽 管 对 
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于 这 两 个 领域 究竟 有 多 少 重合 存在 一 些 争议 , 但 是 一 个 可 能 的 差别 是 机 器 学 习 侧重 执行 一 个 
已 知 的 任务 ， 而 数据 控 掘 则 是 侧重 寻找 有 价值 的 信息 。 例 如 ， 你 可 能 会 用 机 器 学 习 方法 去 教 
一 个 机 器 人 开车 ， 然 而 你 会 利用 数据 挖掘 了 解 哪 种 类 型 的 车 是 最 安全 的 。 
\， 机 器 学 习 算 法 实际 上 是 数据 挖 氢 的 先期 准备 ， 反 之 则 不 然 。 换 句 话说 ， 你 可 
以 以 应 用 机 器 学 习 完 成 不 涉及 数据 挖 气 的 任务 ， 但 是 如 果 你 应 用 数据 挖 握 方 
法 ， 几 乎 肯定 要 用 到 机 器 学 习 。 


1.2 ”机 器 学 习 的 使 用 与 滥用 


机 器 学 习 的 核心 主要 侧重 于 找 出 复杂 数据 的 意义 。 这 是 一 个 应 用 广泛 的 任务 ， 还 有 很 多 
的 应 用 方向 没有 被 发 现 。 就 像 你 可 能 预期 的 那样 ， 机 器 学 习 的 使 用 是 非常 广泛 的 。 例 如 ， 它 
已 经 用 于 : 

口 预测 选举 的 结果 。 

口 识别 并 且 过 滤 垃 圾 邮件 。 

口 预测 犯罪 活动 。 

口 根据 路 况 ， 实 现 交 通信 号 灯 的 自动 化 

口 给 出 暴风 雨 和 自然 灾害 后 经 济 损失 的 估计 。 

口 检测 客户 流失 。 

口 设计 自动 驾驶 飞机 和 自动 驾驶 汽车 。 

口 确定 每 个 人 捐助 的 能 力 。 

口 把 广告 定位 到 特定 类 型 的 顾客 。 

现在 还 不 用 关心 机 器 如 何 学习 去 执行 这 些 任务 ， 后 面 会 具体 介绍 。 上 面 提 到 的 每 种 任 
务 的 背景 不 同 ， 但 是 它们 的 机 器 学 习 过 程 是 一 样 的 。 机 器 学 习 算 法 应 用 数据 ， 找 出 那些 可 
以 应 用 到 实际 行动 中 的 模式 。 在 一 些 案 例 中 ， 机 器 学 习 的 结果 非常 成 功 ， 近 乎 达到 了 神奇 
的 程度 。 

有 一 个 可 能 是 杜撰 的 故事 ， 它 讲 到 美国 一 家 大 型 零售 商 使 用 机 器 学 习 来 确定 怀孕 的 母 
亲 ， 并 给 她 们 发 送 有 针对 性 的 优惠 券 邮件 。 如 果 给 准 妈妈 大 量 有 针对 性 的 折扣 ， 零 售 商 希望 
她 们 成 为 忠实 的 顾客 ， 接 下 来 将 继续 购买 利润 颇 丰 的 商品 ， 例 如 尿布 、 奶 粉 和 玩具 等 。 

通过 应 用 机 器 学 习 方 法 分 析 客 户 购买 数据 ， 零售 商 相 信 他 们 可 以 得 到 一 些 有 用 的 模式 。 
可 以 通过 一 些 商 品 ， 比 如 怀孕 期 的 维生素 、 化 妆 水 和 毛巾 等 ， 以 很 大 的 确定 性 来 判断 一 个 女 
人 是 不 是 怀孕 了 ， 以 及 婴儿 的 产 期 是 什么 时 候 。 

这 家 零售 商 根据 这 些 数据 发 出 促销 邮件 以 后 ， 一 个 生气 的 男人 联系 了 人 他们， 询问 为 什 
么 他 那 只 有 十 几 岁 的 女儿 收 到 了 适用 于 孕妇 的 商品 优惠 券 。 他 很 生气 ， 认 为 商人 是 在 鼓励 青 
少年 怀孕 。 之 后 ， 一 个 经 理 出 来 道歉 。 然 而 最 终 道 攻 的 却 是 这 个 父亲 - 他 和 他 的 女儿 对 质 之 
后 ， 发 现 她 确实 怀孕 了 。 
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无 论 前 面 的 故事 是 否 完全 属实 ， 这 里 有 一 点 是 真实 的 。 零 售 商事 实 上 会 对 他 们 的 顾客 交 
易 记 录 进 行 例 行 分 析 。 如 果 你 曾经 在 超市 、 咖 啡 店 或 者 其 他 商家 那里 使 用 过 购物 积分 卡 ， 那 
么 你 的 购买 记录 数据 很 有 可 能 已 经 被 用 作 机 器 学 习 了 。 

零售 商用 机 器 学 习 方 法 来 做 广告 ， 针 对 目标 群体 进行 定向 促销 ， 进 行 存货 管理 或 者 规划 
商店 里 商品 的 布局 。 一 些 零售 商 甚 至 给 结账 通道 配备 了 特别 装置 ， 它 们 可 以 根据 本 次 交易 购 
买 的 商品 种 类 打印 促销 优惠 券 。 网 站 也 会 基于 你 的 网 站 浏览 记录 定期 做 类 似 的 机 器 学 习 ， 据 
此 进行 广告 发 布 。 由 于 数据 是 从 很 多 个 体 那里 得 到 的 ， 所 以 机 器 学 习 算法 可 以 分 析 人 们 典型 
的 行为 模式 ， 然 后 据 此 来 给 出 商品 推荐 。 

尽管 你 熟悉 幕后 的 机 髓 学 习 算法 ， 但 当 和 零售 商 或 者 网 站 好 像 比 我 们 自己 还 了 解 我 们 的 时 
候 ， 你 还 是 感 党 有 些 像 魔术 一 样 。 有 些 人 可 能 不 太 高 兴 以 这 种 方式 利用 他 们 的 信息 。 因 此 ， 
任何 人 想 要 利用 机 器 学 习 或 者 数据 挖掘 ， 至 少 应 该 考虑 伦理 道德 方面 的 问题 。 


伦理 方面 的 考虑 

由 于 机 器 学 习 是 一 个 相对 较 新 的 、 正 处 于 发 展 之 中 的 学 科 ， 所 以 与 之 相对 应 的 法 律 法 规 
和 社会 准则 尚 不 确定 ,并且 一 直 在 变化 。 获 取 和 分 析 数 据 时 要 小 心 谨慎 ， 避 免 违 法 、 违 反 服 
务 条 例 或 者 数据 使 用 协议 ， 避 免 滥 用 人 们 的 信任 ， 避 免 侵犯 消费 者 或 公众 的 隐私 。 


Google 可 能 是 一 个 收集 私人 信息 比 其 他 任何 同行 都 多 的 机 构 ， 其 非 正 式 的 
公司 航 言 是 : 不 作恶 。 这 可 以 作为 你 的 一 个 比较 合理 的 道德 指引 起 点 ， 但 这 
也 可 能 还 不 够 。 


某 些 司法 规定 可 能 不 允许 你 把 种 族 、 民 族 、 宗 教 或 者 其 他 一 些 受 保护 类 型 的 数据 用 作 商 
业 用 途 ， 但是， 你 要 牢记 的 是 把 这 些 数 据 排除 在 分 析 之 外 可 能 还 不 够 ， 因 为 机 器 学 习 算法 可 
能 会 不 可 避免 地 自己 来 学 习 这 些 信 息 。 例 如 ， 如 果 某 一 特定 群体 的 人 一 般 生 活 在 一 个 特定 地 
区 ， 购 买 特定 的 商品 或 者 他 们 的 行为 能 唯一 地 确定 他 们 这 个 群体 ， 那 么 一 些 机 器 学 习 算 法 可 
以 从 他 们 的 一 些 表 面 上 看 无 关 紧要 的 数据 中 推算 出 那些 受 保护 的 信息 。 在 这 种 情况 下 ， 除 了 
受 保护 的 信息 之 外 ， 也 要 排除 所 有 可 能 的 潜在 识别 这 群 人 的 数据 。 

除了 合法 性 的 结果 外 ， 使 用 数据 不 当 有 可 能 会 触及 道德 底线 。 如 果 一 部 分 顾客 认为 是 隐 
私 的 个 人 生活 被 公开 的 时 候 ， 他 们 可 能 会 感到 不 舒服 或 者 害怕 。 最 近 ， 当 用 户 感到 应 用 程序 
的 服务 协议 条 款 发 生变 动 ， 或 者 认为 他 们 的 数据 被 用 于 超出 了 他 们 原本 同意 应 用 程序 可 以 使 
用 的 范围 时 ， 有 几 个 备 受 瞩目 的 网 络 应 用 出 现 了 大 量 的 用 户 流失 现 象 。 对 隐私 的 界定 会 由 于 
内 容 、 年 龄 层 、 地 点 的 改变 而 不 同 ， 这 就 增加 了 合理 使 用 个 人 数据 的 复杂 性 。 在 你 开始 你 的 
项 目 之 前 先 考 虑 文化 差异 的 因素 是 很 明智 的 。 


< _ 
QQ 事实 上 ， 你 能 够 把 数据 应 用 于 一 个 特定 的 目的 并 不 总 是 代表 你 应 该 这 样 做 。 
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1.3 ”机 器 如 何 学 习 


一 个 经 常 被 引用 的 机 器 学 习 的 正式 定义 是 由 计算 机 科学 家 Tom M. Mitchell 提出 的 : 如 果 
机 器 能 够 获取 经 验 并 且 能 利用 它们 ,在 以 后 的 类 似 经 验 中 能 够 提高 它 的 表现 ， 该 机 器 就 称 为 
机 器 学 习 。 这 个 定义 是 相当 精确 的 ， 其 中 提 及 机 器 学 习 技巧 ， 以 及 实际 中 如 何 学 习 把 数据 转 
换 成 可 行动 的 知识 。 
尽管 在 使 用 机 器 学 习 之 前 并 不 一 定 要 先 理 解 它 的 理论 基础 ， 但 是 这 一 基础 能 
< 使 人 了 解 不 同 机 器 学 习 算 法 之 间 的 区 别 。 因 为 在 人 的 大 脑 里 ， 机 器 学 习 算 法 
有 许多 不 同 的 建 模 方式 ， 你 也 可 能 通过 从 不 同 角度 检验 自己 的 思想 来 探索 你 
自己 


无 论 学 习 者 是 人 还 是 一 个 机 需 ， 基 础 的 学 习 过 程 是 类 似 的 。 这 一 过 程 可 以 分 成 如 下 3 个 
部 分 : 

口 数据 输入 : 这 部 分 利用 观察 、 记 忆 存 储 ， 以 及 回忆 来 提供 进一步 推理 的 事实 依据 。 

口 抽象 化 : 这 部 分 涉及 把 数据 转换 成 更 宽泛 的 表现 形式 (broader representation ) 。 

口 一 般 化 : 这 部 分 应 用 抽象 的 数据 来 形成 行动 的 基础 。 


到 抽象 化 一 般 化 


为 了 更 好 地 理解 学 习 的 过 程 ， 想 象 你 最 近 参 加 的 一 场 高 难度 的 考试 ， 该 考试 可 能 是 大 学 
里 的 一 场 期 末 考 试 或 者 一 场 资格 证 书 考试 。 在 考试 之 前 ， 你 想 要 过 目 不 忘 的 本 事 吗 (就 像 拍 
照 那 样 ) ?” 如 果 你 这 么 想 过 ， 当 你 知道 过 目 不 忘 的 本 领 不 可 能 帮助 你 太 多 时 ， 你 可 能 会 失望 。 
如 果 没 有 深刻 理解 ， 你 的 知识 就 会 局 限于 输入 的 数据 。 这 就 意味 着 你 除了 知道 你 已 经 见 到 过 
的 之 外 ， 没 有 获取 其 他 多 余 的 信息 。 因 此 ， 如 果 不 知道 所 有 可 能 被 测验 问题 的 知识 ， 你 将 局 
限于 试图 把 所 有 会 考 的 问题 的 答案 都 记 下 来 。 显 然 这 种 方式 不 具备 持久 性 。 

代替 它 的 一 种 更 好 的 方法 是 伦 时 间 有 选择 性 地 理解 一 小 部 分 的 核心 概念 。 建 立 大 纲 或 者 
概念 图 是 通常 应 用 的 学 习 策 略 ， 这 和 机 需 执 行 知识 抽象 的 方式 是 相 类 似 的 。 这 种 方法 界定 了 
信息 间 的 关系 ， 并 且 这 种 方法 描述 了 艰深 的 主题 而 不 用 逐 字 去 记忆 。 这 是 一 种 更 高 级 的 学 习 
方式 ， 它 要 求学 习 者 用 他 们 自己 的 话 来 描述 这 些 主题 。 

公布 考试 分 数 时 总 是 一 个 紧张 的 时 刻 ， 学 习 策 略 也 会 被 显然 或 者 不 显然 地 给 出 或 高 或 低 
的 分 数 。 这 里 ， 你 就 会 发 现 你 的 学 习 策略 是 否 会 扩展 到 老师 或 者 教授 考察 的 问题 。 一 般 化 一 
方面 需要 大 量 的 抽象 数据 ， 男 一 方面 它 也 需要 高 度 理解 如 何 把 这 些 知 识 应 用 到 没有 预知 的 考 
试题 目 中 。 一 个 优秀 的 教师 在 这 方面 会 很 有 帮助 。 

记 住 ， 尽 管 我 们 把 学 习 的 过 程 阐述 为 3 个 不 同 的 部 分 ， 但 是 这 仅仅 是 为 了 便于 阐述 的 目 
的 才 这 人 么 归 类 的 。 事 实 上 ， 学 习 的 这 3 个 组 成 部 分 是 紧密 相连 的 。 尤 其 是 抽象 化 和 一 般 化 这 
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两 个 步骤 的 关系 是 如 此 紧密 ， 以 至 于 不 可 能 在 没有 另 一 个 步骤 的 情况 下 单独 执行 其 中 的 一 个 
步骤 。 对 人 类 来 说 ， 整 个 过 程 都 是 下 意识 发 生 的 。 我 们 收集 数据 ， 推 理 数 据 ， 归 纳 数据 ， 最 
后 发 现 规律 。 然 而 对 于 一 台 计 算 机 来 说 ， 这 些 步骤 一 定 要 分 步 进行 。 从 另 一 个 方面 来 说 ， 这 
也 是 机 器 学 习 的 一 个 优点 。 因 为 这 个 过 程 是 透明 化 的 ， 学 到 的 知识 能 在 以 后 的 应 用 中 得 到 检 
验 和 利用 。 


1.3.1 ”抽象 化 和 知识 表达 

把 原始 数据 用 一 个 结构 化 的 格式 来 表达 是 学 习 算法 最 典型 的 任务 。 在 此 之 前 ， 数 据 仅 仅 
是 硬盘 上 或 者 内 存 中 的 1 和 0 (二 进 制 )， 它 们 没有 意义 。 给 数据 赋予 含义 的 工作 是 在 抽象 化 
步骤 中 进行 的 。 

观点 (idea) 和 现实 (reality) 之 间 的 联系 可 以 用 René Magritte ( 雷 内 “， 马 格 利 特 ) 的 著名 
画作 “The Treachery of Images”( 图 像 的 背叛 ) 来 说 明 ， 如 下 图 所 示 。 














Cect ne fos We 1 


| 





来 源 : http://collections.lacma.org/node/239578 

这 幅 画 展示 了 一 个 烟斗 和 一 行 字 “ Ceci n'est pas une pipe ”( 这 不 是 一 个 烟斗 )。Maegritte 
想 要 表达 的 观点 是 表现 出 来 的 烟斗 并 不 是 一 个 真实 的 烟斗 。 尽 管事 实 上 那个 烟斗 并 不 真实 ， 
但 是 任何 看 到 这 幅 画 的 人 都 能 很 轻易 地 认 出 这 张 照片 展示 了 一 个 烟斗 ， 这 表明 观察 的 人 的 思 
想 能 够 连接 图 画 中 的 烟斗 和 观念 里 的 烟斗 ， 接 着 照片 里 的 烟斗 就 和 真实 的 那 种 能 拿 在 手 里 的 
烟斗 联系 在 一 起 。 像 这 样 的 抽象 连接 是 知识 表达 的 基础 ， 是 帮助 把 原始 的 感官 信息 转变 成 有 
意义 洞察 的 逻辑 结构 的 基础 。 

在 知识 表达 的 过 程 中 ,计算 机 把 原始 输入 的 数据 概括 在 一 个 模型 里 ， 这 个 模型 是 数据 
间 结 构 化 模式 的 一 个 显 式 描 述 。 有 很 多 种 不 同类 型 的 模型 ， 你 可 能 对 其 中 的 一 些 模 型 比较 熟 

口 方程 

口 像 树 形 图 和 曲线 图 这 样 的 图 表 

口 逻辑 上 的 如 果 /否则 (if/else) 规则 

口 把 数据 分 组 为 类 

模型 的 选择 通常 不 是 由 机 器 来 完成 的 ， 而 是 由 学 习 的 任务 和 所 分 析 数 据 的 类 型 来 决定 
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的 。 在 本 章 的 后 续 部 分 ， 将 会 详细 地 讨论 选择 模型 类 型 的 方法 。 

用 一 个 特定 的 模型 来 拟 合 数据 集 的 过 程 称 为 训练 。 为 什么 不 把 它 称 为 学 习 呢 ? 第 一 ， 要 
牢记 学 习 的 过 程 不 会 因为 数据 抽象 化 过 程 的 结束 而 终止 。 学 习 还 要 求 更 进一步 的 步骤 ， 即 把 
知识 一 般 化 从 而 被 未 来 数据 所 用 。 第 二 ,“ 训 练 ” 这 个 词 更 精确 地 描绘 了 模型 被 应 用 于 数据 
的 实际 过 程 。 学 习 是 一 种 自 下 而 上 的 归纳 性 推理 。 训 练 更 好 地 表现 了 机 器 学 习 模型 是 由 人 类 
教师 强加 于 机 器 学 生 身上 的 这 个 事实 ， 为 计算 机 以 后 想 要 建立 的 模型 提供 了 一 个 体系 结构 。 

当 模 型 被 训练 后 ， 数 据 转换 为 一 个 汇总 了 原始 信息 的 抽象 形式 。 必 须 指 出 的 是 模型 并 不 
会 自己 提供 额外 的 数据 ， 然 而 有 时 候 它 本 身 就 很 有 趣 。 怎 么 会 是 这 样 的 呢 ? 其 原因 是 : 通过 
把 假定 的 结构 应 用 在 原始 数据 上 ， 它 给 出 了 不 可 见 现象 的 洞察 并 且 提 供 了 数据 是 如 何 相互 关 
联 的 理论 。 例 如 万 有 引力 的 发 现 过 程 。 通 过 用 方程 来 拟 合 观测 的 数据 ，Sir Isaac Newton ( 艾 
萨 克 ， 牛顿 事 士 ) 推导 出 了 万 有 引力 的 概念 。 但 是 万 有 引力 原本 就 是 一 直 存 在 的 。 直 到 通过 
模型 用 抽象 的 参数 定义 它 ， 特 别 是 把 它 变 成 模型 中 的 参数 g， 用 来 解释 观测 到 的 掉 下 来 的 物 
体 ， 它 才 被 作为 一 个 概念 来 认识 。 


观测 一 一 -一 - 数据 一 一 ”~ 模型 


&=9.8my/s: 





本 

几 个 世纪 以 来 ， 大 多 数 的 模型 并 没有 导致 科学 观念 在 理论 方面 的 发 展 。 但 是 模型 仍然 可 
发 现 数据 间 原 来 无 法 看 清 的 关系 。 由 染色 体 数据 所 训练 的 模型 可 能 会 发 现 多 个 基因 之 间 的 结 
合 导 致 糖尿 病 出 现 的 情况 ; 银行 可 能 会 发 现 一 个 表面 上 没有 危害 的 交易 类 型 总 是 有 规律 地 出 
现在 诈骗 活动 之 前 ; 心理 学 家 可 能 发 掘 出 几 个 特征 间 的 结合 会 暗示 了 一 个 新 的 心理 失调 的 出 
现 。 内 在 的 关系 是 永远 存在 的 ， 但 是 通过 用 不 同 的 格式 来 把 信息 概念 化 ， 一 个 模型 就 会 从 一 
个 新 的 视角 呈现 出 内 在 的 关系 。 


1.3.2 一 般 化 

前 面 提 到 ， 直 到 学 习 者 能 够 把 抽象 知识 应 用 到 将 来 的 行动 中 去 ， 学 习 过 程 才 算 完 成 。 然 
而 ， 在 学 习 者 继续 进行 之 前 还 存在 一 个 问题 : 在 抽象 化 的 过 程 中 可 能 发 现 无 数 的 内 在 关系 ， 同 
时 还 有 多 种 方法 对 这 些 内 在 关系 建 模 。 除 非 潜在 理论 的 数量 有 所 限制 ， 否 则 学 习 者 将 不 能 利用 
这 些 信息 。 学 习 过 程 在 一 开始 就 会 被 卡 住 ， 空 有 大 量 的 信息 但 是 没有 可 以 转化 为 行动 的 洞察 。 

一 般 化 这 个 术语 描述 了 把 抽象 化 的 知识 转换 成 可 以 用 于 行动 的 形式 。 某 种 程度 上 而 言 ， 
一 般 化 是 一 个 难以 描述 的 模糊 的 过 程 。 从 传统 意义 上 来 说 ， 它 被 想象 成 训练 过 程 中 对 所 有 可 
用 于 数据 抽象 化 的 模型 ( 即 理论 ) 的 搜索 过 程 。 具 体 来 说 ， 如 果 你 设想 一 个 假定 包含 所 有 从 
数据 建立 的 可 能 模型 (或 理论 ) 的 集合 ， 一 般 化 就 是 把 这 个 集合 里 的 理论 的 数量 减少 到 一 个 
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可 以 管理 的 数目 。 

一 般 而 言 ， 通 过 逐一 检验 来 减少 潜在 概念 的 数量 并 确定 哪 一 种 理论 是 最 有 用 的 方法 是 不 
可 行 的 。 机 器 学 习 算法 一 般 用 一 些 能 更 快 划分 概念 集合 的 捷径 方法 。 为 了 这 个 目的 ， 算 法 应 
用 启发 式 方法 ， 或 者 有 训练 地 猜测 在 何 处 能 找到 最 重要 的 概念 。 


由 于 启发 式 方法 利用 相近 原理 和 其 他 一 些 经 验 法 则 ， 所 以 它 不 能 保证 找到 对 数 
据 建 模 的 最 优 概 念 集 。 然 而 ， 如 果 不 利用 这 些 捷径 方法 ， 从 大 的 数据 集中 找到 
有 用 信息 的 任务 就 变 得 不 可 能 了 


启发 式 方法 通常 被 人 类 用 来 快速 地 把 经 验 推 广 到 新 的 场景 (new scenario)。 如 果 你 曾经 
在 充分 评估 你 的 情况 之 前 应 用 直觉 来 做 出 快速 决定 ， 那 么 你 已 经 不 自觉 地 使 用 了 精神 启发 式 
方法 。 

例如 ， 人 们 通过 对 回忆 过 去 案例 的 难 易 程度 来 判断 一 个 事件 可 能 性 的 倾向 ， 这 就 是 启发 
式 方法 。 启 发 式 方法 可 能 帮助 解释 相对 汽车 旅行 而 言 ， 人 们 为 什么 更 加 普遍 害怕 飞行 旅行 这 
个 问题 ， 尽 管 统计 上 的 结果 是 汽车 更 加 危险 。 有 关 飞 行 旅行 的 事故 会 被 高 度 宣 传 ， 这 种 令 人 
震惊 的 事件 更 加 容易 被 人 们 回想 起 来 ， 然 而 汽车 事故 却 鲜 有 刊登 在 报纸 上 。 

上 述 例子 表明 ， 启 发 式 方法 可 能 会 导致 不 合理 的 结论 。 裔 览 一 系列 常见 的 逻辑 谬误 ， 你 
可 能 注意 到 其 中 很 多 看 起 来 是 由 于 启发 式 思维 导致 的 。 例 如 ， 赌 徒 的 雇 误 ， 也 就 是 说 相信 碰 
到 坏 运气 就 意味 着 一 段 好 运 的 到 来 。 可 能 应 用 了 表面 上 的 启发 式 思 维 ， 错 误 地 导致 财 徒 认为 
由 于 大 部 分 随机 结果 是 平衡 的 ， 所 以 所 有 随机 结果 是 平衡 的 。 

误 用 启发 式 方法 的 思春 并 不 局 限于 人 类 。 机 器 学 习 算 法 应 用 启发 式 方法 有 时 也 会 导致 错 
误 的 结论 。 如 果 算 法 的 结论 是 系统 性 的 不 精确 ， 就 说 该 算法 有 偏差 。 例 如 ， 假 设 一 个 机 器 学 
习 算 法 学 习 通 过 寻找 位 于 (代表 嘴巴 的 ) 一 条 线 上 方 两 侧 的 两 个 圆 ， 或 者 说 眼睛 ,来 识别 人 
脸 。 这 个 算法 就 可 能 在 识别 那些 不 符合 这 个 模型 的 人 脸 时 出 现 问题 ， 或 者 说 产生 偏差 。 不 能 
识别 的 人 脸 可 能 包括 戴 眼 镜 、 转 动 一 定 角度 、 侧 视 或 者 有 深 色 皮肤 的 人 脸 。 类 似 地 ， 对 那些 
浅 色 眼睛 或 者 其 他 不 同 于 机 器 所 理解 的 世界 ( 即 其 他 特征 的 人 脸 )， 机 器 就 会 产生 偏差 。 


结果 
机 器 的 理解 @ 汪 
We i 
i @® 不 是 脸 


现代 用 法 中 ,“ 偏 差 ”一 词 带 有 负面 的 含义 。 各 种 形式 的 媒体 都 经 常 宣称 没有 偏见 ， 声 
称 客观 报道 事件 ， 没 有 受 情绪 左右 。 但 是 ， 细 想 一 下 ， 其 实 有 一 点 偏差 也 许 是 有 用 的 。 如 果 
没有 任何 的 专断 ， 在 几 个 各 有 其 长 处 和 短处 的 相互 竞争 的 选项 中 做 出 选择 就 变 得 困难 了 。 确 
实 ， 当 今 心理 学 领域 的 一 些 研究 指出 ， 出 生 时 就 损坏 了 掌管 情绪 的 那 部 分 大 脑 的 人 在 做 决定 
时 是 无 所 适 从 的 ， 他 们 可 能 花费 几 个 小 时 来 纠结 一 些 简单 的 决定 ， 比 如 穿 什么 颜色 的 衬衫 或 


StL 


真实 情况 





wwaibbt.com DODDDODDOD 


第 1 章 ”机 器 学 习 简 介 %* 9 


者 在 哪里 吃饭 。 了 矛盾 的 是 ， 有 时 候 偏 差 会 使 我 们 无 视 一 些 信息 ， 它 同时 又 让 我 们 能 够 应 用 一 
些 其 他 的 信息 来 行动 。 


1.3.3 ”评估 学 习 的 成 功 性 

偏差 是 与 任何 机 器 学 习 任务 的 抽象 化 和 一 般 化 这 两 个 过 程 相 联系 的 不 可 避免 的 廖 误 。 每 
一 个 学 习 者 都 有 其 弱点 ， 并 且 以 特定 方式 具有 偏差 ; 没有 一 个 模型 可 以 胜 过 所 有 其 他 模型 。 
因此 ， 一 般 化 过 程 的 最 后 一 步 就 是 在 存在 偏差 的 情况 下 判断 模型 的 成 功 性 。 

在 初始 的 数据 集 上 训练 模型 之 后 ， 它 要 被 一 个 新 的 数据 集 检 验 ， 并 且 判 断 从 训练 数据 得 
到 的 特征 推广 到 新 数据 的 好 坏 程 度 。 值 得 注意 的 是 ， 一 个 模型 完美 地 推广 到 所 有 未 预见 到 的 
情况 是 极端 罕见 的 。 

在 某 种 程度 上 ， 由 于 数据 中 的 噪声 或 者 无 法 解释 的 波动 导致 模型 不 能 完美 地 一 般 化 。 品 
声 数据 是 由 看 起 来 随机 的 事件 所 导致 的 ， 比 如 ; 

口 测量 错误 ， 由 于 传感器 的 不 精准 ， 有 时 候 会 导致 读 出 的 数据 增加 一 些 或 者 减 小 一 些 。 

口 报告 的 数据 有 问题 ， 比 如 被 调查 者 为 了 尽快 完成 调查 问卷 ， 就 随意 回答 问题 。 

口 由 于 数据 记录 不 正确 而 导致 的 错误 ， 包 括 数据 的 缺失 、 空 值 、 截 断 、 错 误 编 码 或 者 取 

值 冲 突 。 

试图 用 模型 拟 合 噪 声 就 是 称 之 为 过 度 拟 合 问题 的 基础 。 因 为 根据 定义 ， 噪 声 是 无 法 解释 
的 ， 尝 试 解释 噪声 会 导致 错误 的 结论 ， 该 结论 不 能 推广 到 新 的 场景 中 。 尝 试 建立 解释 噪声 的 
理论 也 会 导致 模型 更 加 复杂 ， 从 而 极 有 可 能 忽略 了 学 习 者 努力 去 寻找 的 真实 的 模型 。 一 个 模 
型 在 训练 时 表现 得 很 好 ， 但 是 当 测 试 时 就 表现 很 差 的 现象 ， 称 为 过 度 拟 合 了 训练 数据 集 ， 即 
它 不 能 很 好 地 一 般 化 。 

过 度 拟 合 问题 的 解决 办 法 视 具 体 的 机 器 学 习 方法 而 不 同 。 就 现在 而 言 ， 重 要 的 是 要 意识 
到 问题 的 存在 。 模 型 处 理 噪声 数据 的 好 坏 是 判断 模型 成 功 与 否 的 一 个 重要 方面 。 


1.4 ”将 机 器 学 习 应 用 于 数据 中 的 步骤 


任何 机 器 学 习 任 务 都 能 分 解 成 一 系列 更 容易 管理 的 步 又。 本 书 组 织 的 步骤 如 下 : 

1 ) 收集 数据 : 无 论 数据 是 写 在 纸 上 ， 记 录 在 文本 文件 、 电 子 表格 中 或 者 存储 在 SQL 数 
据 库 中 ， 你 都 要 把 它 转 为 适合 分 析 的 电子 格式 。 数 据 将 作为 机 器 学 习 算法 的 学 习 材 料 ， 从 而 
产生 可 行动 的 知识 。 

2 ) 探索 数据 和 准备 数据 : 任何 机 器 学 习 项 目的 质量 很 大 程度 上 取决 于 它 使 用 的 数据 的 
质量 。 机 器 学 习 过 程 的 这 个 步骤 一 般 需要 大 量 的 人 工 干 预 。 一 项 常 被 引用 的 统计 数据 指出 ， 
机 器 学 习 中 80% 的 努力 花费 在 数据 上 。 这 其 中 的 大 多 数 时 间 都 花费 在 一 项 称 为 数据 探索 的 实 
践 中 ， 它 要 学 习 更 多 的 数据 信息 和 它们 的 细微 差别 。 

3 ) 基于 数据 训练 模型 : 在 已 经 准备 好 用 于 分 析 的 数据 时 ， 你 很 有 可 能 已 经 有 了 希望 从 
数据 中 学 习 到 什么 的 设想 。 具 体 的 机 器 学 习 任 务 将 会 告知 你 选择 合适 的 算法 ， 算 法 将 会 以 模 
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型 的 形式 来 表现 数据 。 

4 ) 评价 模型 的 性 能 : 由 于 每 个 机 器 模型 将 会 产生 一 个 学 习 问 题 的 有 偏差 的 解决 方法 ， 
所 以 评价 算法 从 经 验 中 学 习 的 优 劣 是 很 重要 的 。 根 据 使 用 模型 的 类 型 ， 你 应 该 能 用 一 个 测试 
数据 集 来 评价 模型 的 精确 性 ， 或 者 你 可 能 需要 针对 目标 应 用 设计 模型 性 能 的 检验 标准 。 

5 ) 改进 模型 的 性 能 : 如 果 需 要 更 好 的 性 能 ， 就 需要 利用 更 加 高 级 的 方法 来 提高 模型 的 
性 能 。 有 时 候 ， 需 要 完全 更 换 为 不 同 的 模型 。 你 可 能 需要 补充 另外 的 数据 ， 或 者 如 这 个 过 程 
的 第 二 个 步 又 中 所 做 的 那样 ， 进 行 一 些 额外 的 数据 准备 工作 。 

在 完成 这 些 步骤 以 后 ， 如 果 模 型 表现 令 人 满意 ， 就 能 将 它 应 用 到 预期 的 任务 中 。 根 据 具 
体 的 情况 ， 为 了 预测 (也 可 能 是 实时 预测 ) 的 目的 ， 你 可 能 需要 模型 给 出 预测 分 数 。 例 如 ， 
预测 财务 数据 、 对 市 场 或 者 研究 给 出 有 用 的 见解 ， 或 者 使 诸如 邮件 投递 或 者 飞机 飞行 之 类 的 
任务 实现 自动 化 。 部 署 的 模型 无 论 成 功 或 者 失败 ， 它 们 都 可 能 为 训练 下 一 代 的 模型 提供 进 一 
步 的 数据 。 


1.5 选择 机 器 学 习 算 法 


机 带 学 习 算 法 的 选择 涉及 衡量 要 学 习 数 据 的 特征 和 可 以 使 用 的 方法 所 具有 的 偏差 。 因 为 
机 器 学 习 算法 的 选择 很 大 程度 上 依赖 于 你 所 分 析 数 据 的 类 型 和 任务 ， 当 你 在 收集 、 探 索 和 清 
理 数据 时 就 开始 考虑 这 个 过 程 是 很 有 帮助 的 。 


只 要 学 习 几 个 机 器 学 习 的 技巧 ， 就 能 把 它们 应 用 到 所 有 的 数据 中 的 想法 是 很 

< 、 诱 人 的 ， 但 是 要 抵 住 这 种 诱惑 。 没 有 一 种 机 器 学 习 方 法 对 所 有 环境 都 是 最 
好 的 。 这 个 事实 被 描述 为 没有 免费 午餐 定理 ， 由 David Wolpert 在 1996 年 提 
出 。 想 要 了 解 更 多 的 信息 ， 请 访问 : http:Wwww.no-free-lunch.org。 


1.5.1 考虑 输入 的 数据 

所 有 的 机 器 学 习 算 法 都 要 求 输入 训练 数据 。 虽 人 然 精 确 的 格式 可 能 不 同 ， 但 是 就 最 基础 的 
格式 而 言 ， 输 入 数据 是 以 案例 (example) 和 特征 (feature) 组 成 的 表格 形式 呈现 的 。 

从 名 称 上 看 ， 案 例 是 一 个 被 学 习 概 念 的 示例 性 实例 ， 它 是 要 分 析 事 物 的 最 基本 单位 的 一 
组 数据 。 如 果 你 要 建立 一 个 识别 垃圾 邮件 的 学 习 算法 ， 案 例 就 是 从 诸多 个 人 电子 邮件 中 获得 
的 数据 。 想 要 诊断 癌症 肿瘤 ， 案 例 可 能 由 一 些 病 人 的 活检 切片 组 成 。 

短语 观察 单位 是 用 来 描述 被 测量 的 案例 的 单位 。 一 般 来 说 ， 观 察 单位 是 以 交易 、 人 、 时 
间 点 、 地 理 区 域 或 者 测量 单位 的 形式 呈现 的 。 其 他 可 能 的 观察 单位 包括 前 面 所 述 的 单位 的 组 
合 ， 如 人 年 ， 它 表示 同一 个 人 在 多 个 时 间 点 上 被 记录 的 情况 。 

特征 是 指 案例 的 一 个 属性 或 者 特性 ， 它 们 可 能 对 学 习 目 标 概念 有 帮助 。 在 前 面 的 例子 
中 ,垃圾 邮件 检索 数据 集 的 特征 就 可 能 由 邮箱 信件 所 使 用 的 文字 组 成 。 在 癌症 数据 集中 ， 属 
性 可 能 是 活检 细胞 染色 体 数 据 或 者 测 得 的 病人 的 一 些 体征 ， 比 如 体重 、 身 高 或 者 血压 等 。 
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下 面 的 这 个 电子 表格 是 一 个 矩阵 格式 的 数据 集 ， 它 意味 着 每 一 个 案例 都 有 相同 数量 的 
特征 。 在 矩阵 数据 中 ， 电 子 表格 的 每 一 行 表 示 一 个 案例 ， 每 一 列表 示 一 个 特征 。 在 这 个 表格 
里 , 行 表 示 汽 车 的 案例 ， 每 列 记录 了 汽车 的 不 同 特征 ， 例 如 汽车 价格 、 行 驶 的 英里 数 、 车 身 
的 颜色 、 变 速 箱 (手动 或 者 自动 )。 尽 管 在 后 面 的 章节 里 ， 你 将 会 看 到 在 特定 的 情况 下 偶尔 会 
使 用 其 他 形式 的 数据 ， 但 矩阵 格式 的 数据 是 目前 机 器 学 习 中 最 常用 的 数据 形式 。 








案例 


























称 为 数值 型 。 另 外 ， 如 果 它 所 代表 的 属性 是 通过 一 组 类 别 来 表示 的 ， 这 样 的 特征 称 为 分 类 变 
量 或 者 名 义 变量 。 分 类 变量 中 有 一 种 特殊 的 类 型 : 有 序 变量 ， 它 指 分 类 变量 的 类 别 落 在 一 个 
有 序列 表 中 。 有 序 变量 的 例子 包括 衣服 的 尺码 : 小 号 、 中 号 和 大 号 ， 或 者 顾客 的 满意 程度 : 
用 级 别 1 ~ 5 来 评估 。 考 虑 特征 的 表现 形式 很 重要 ， 因 为 数据 集中 特征 的 种 类 和 数量 有 助 于 
你 找到 一 个 适 于 你 的 任务 的 机 器 学 习 算 法 。 


1.5.2 ”考虑 机 器 学 习 算法 的 类 型 

机 器 学 习 算 法 可 以 分 为 两 类 : 用 来 建立 预测 模型 的 有 监督 学 习 算 法 和 用 来 建立 描述 模型 
的 无 监督 学 习 算 法 。 使 用 哪 种 类 型 的 算法 取决 于 你 需要 完成 的 学 习 任 务 。 

预测 模型 ， 顾 名 思 义 ， 它 用 于 这 样 的 学 习 任 务 : 利用 数据 集中 的 其 他 数值 来 预测 另 一 个 
值 。 学 习 算 法 的 目的 是 发 现 并 且 建 模 目标 特征 (需要 预测 的 特征 ) 和 其 他 特征 之 间 的 关系 。 
尽管 在 通常 情况 下 ， 使 用 “预测 ”这 个 词 是 用 来 暗示 对 未 来 的 预测 ， 但 是 预测 模型 不 一 定 是 
预测 未 来 的 事件 ， 它 也 能 用 来 预测 过 去 的 事情 ， 比 如 通过 母亲 的 荷尔蒙 数量 来 预测 怀孕 的 日 
期 ， 它 也 可 以 用 来 实时 控制 高 峰 时 段 的 交通 信号 灯 。 

因为 预测 模型 对 于 “学 什么 ”和 “怎么 学 ”有 清晰 的 指导 ， 所 以 训练 一 个 预测 模型 的 
过 程 也 称 为 有 监督 学 习 。 监 督 并 不 是 指 需 要 人 为 干预 ， 它 是 指 让 目标 值 担 任 监督 的 角色 ,让 
它 告诉 学 习 者 要 学 习 的 任务 是 什么 。 具 体 来 说 ， 给 一 组 数据 ， 学 习 算 法 尝试 最 优化 一 个 函数 
(模型 ) 来 找 出 属性 值 之 间 的 组 合 方式 ， 最 终 据 此 给 出 目标 值 。 

常见 的 有 监督 学 习 任 务 是 预测 案例 属于 哪个 类 别 ， 这 类 机 器 学 习 任 务 称 为 分 类 。 不 难 想 
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象 分 类 的 潜在 用 途 。 例 如 ， 你 可 以 预测 : 

口 一 个 足球 队 是 会 赢 还 是 会 输 。 

口 一 个 人 会 不 会 活 过 100 岁 。 

口 一 个 申请 人 会 不 会 贷款 违约 。 

口 明年 会 不 会 发 生地 震 。 

被 预测 的 目标 属性 是 一 个 称 为 类 的 分 类 属性 ， 它 可 以 被 分 为 不 同 的 类 别 ， 这 些 类 别称 为 
水 平 。 一 个 类 能 有 两 个 或 者 更 多 的 水 平 ， 水 平 不 一 定 是 有 序 的 。 因 为 分 类 在 机 器 学 习 中 广泛 
运用 ， 所 以 有 很 多 种 类 型 的 分 类 算法 。 

有 监督 学 习 算 法 也 可 以 用 来 预测 数值 型 的 数据 ， 比 如 收入 、 试 验 数据 、 考 试 成 绩 或 者 商 
品 数量 。 为 了 预测 这 类 数值 型 数值 ， 能 够 拟 合 输入 数据 的 线性 回归 模型 是 一 类 常见 的 数值 型 
预测 。 尽 管 回归 模型 不 是 唯一 的 数值 型 模型 ， 但 至 今 为 止 它 是 应 用 最 为 广泛 的 模型 。 回 归 模 
型 被 广泛 地 应 用 于 预测 ， 因 为 它 用 表达 式 精 确 量化 了 输入 数据 和 目标 值 之 间 的 关系 ， 其 中 包 
括 该 关系 的 强 弱 大 小 和 不 确定 性 。 

a 因为 可 以 容易 地 把 数字 转换 为 类 别 ( 例 如， 年 龄 在 13 ~ 19 岁 之 间 的 孩子 归 

类 为 青少年 ) 和 把 分 类 数据 转化 为 数字 (例如 ， 把 男性 标示 为 1， 女性 标示 
为 0)， 所 以 分 类 模型 和 数值 预测 模型 之 间 的 界限 不 太 严 格 。 


描述 性 模型 ， 通 过 新 而 有 趣 的 方式 总 结 数据 并 获得 洞察 ， 从 而 学 习 任 务 从 这 些 洞 察 中 受 
益 。 与 需要 预测 目标 值 的 预测 模型 不 同 ， 在 描述 性 模型 里 ， 没 有 某 一 个 属性 比 其 他 属性 更 重 
要 。 事 实 上 ， 因 为 没有 一 个 要 学 习 的 目标 ， 所 以 训练 描述 性 模型 的 过 程 称 为 无 监督 学 习 。 尽 
管 思考 描述 性 模型 的 应 用 更 加 困难 ， 但 是 好 的 地 方 在 于 学 习 者 没有 特定 的 学 习 任务 ， 这 种 方 
法 在 数据 挖掘 中 经 常 使 用 。 

例如 ， 称 为 模式 发 现 的 描述 性 模型 任务 ， 用 来 识别 数据 之 间 联 系 的 紧密 性 。 很 多 时 候 模 
式 发 现 用 来 对 交易 之 间 的 购买 数据 进行 购物 篮 分 析 (market basket analysis)。 这 里 ， 目 的 是 识 
别 那些 经 常 被 一 起 购买 的 商品 ， 使 得 学 习 信 息 能 被 用 来 改进 商场 的 销售 策略 。 打 个 比方 ， 如 
果 一 家 零售 商学 习 到 游泳 裤 通 常会 和 防晒 霜 一 起 购买 ， 那 么 零售 商 就 可 能 把 这 些 商 品 摆 放 得 
更 近 一 些 ， 或 者 做 一 次 促销 把 相 联 系 的 商品 捆绑 销售 给 顾客 。 


~ 汪 、 模式 发 现 最 初 仅仅 用 在 零售 领域 ， 如 今 它 开始 应 用 在 一 些 新 的 领域 。 例 如 ， 
它 能 用 来 发 现 犯罪 行为 的 模式 ， 杜 别 基 因 缺 陷 或 者 阻止 犯罪 活动 。 


描述 性 模型 中 把 数据 集 按 照相 同类 型 分 组 的 任务 称 为 聚 类 。 它 有 时 候 用 于 细 分 分 析 ， 即 
根据 相似 的 购买 记录 、 捐 赠 记 录 或 者 人 口 普 查 信息 进行 人 群 分 类 ， 使 得 广告 活动 能 够 针对 目 
标 受众 。 尽 管 机 器 能 识别 各 个 分 组 ， 但 还 是 需要 人 工 介 和 来 解释 各 个 分 组 。 打 个 比方 ， 假 设 
一 家 杂货 店 有 5 种 不 同类 型 的 顾客 分 类 ， 和 营销 团队 需要 了 解 各 种 分 类 之 间 的 区 别 以 便 设 置 最 
适合 各 种 分 类 的 促销 活动 。 当 然 ， 这 远 比 为 每 一 个 顾客 量 身 定制 一 个 推销 方案 容易 得 多 。 
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1.5.3 ”为 数据 匹配 合适 的 算法 

下 表 给 出 了 本 书 所 讨论 的 机 器 学 习 算 法 的 类 型 ， 其 中 每 一 类 算法 都 可 能 有 多 种 实现 方 
式 。 尽 管 这 些 算 法 仅仅 覆盖 了 所 有 机 器 学 习 算 法 的 一 部 分 ， 但 是 学 习 这 些 算法 将 为 你 提供 一 
个 充足 的 基础 ， 这 样 你 在 碰 到 其 他 算法 时 就 能 够 理解 它们 。 


Wy [| 地 

有 监督 学 习 算法 
最 近 人 E 
人 表册 圳 4 
入 晴 5 间 
分 类 名 第 5 
线性 上 月 十 6 
加 肝 弟 6 训 
本 第 6 训 
证 经 网 也 站 7 刘 
支持 有 最 机 站 7 

无 监督 学 习 算法 
规则 十 6 训 
区 估 天 第 9 章 


为 了 给 学 习 任 务 找到 相应 的 机 器 学 习 方 法 ， 你 需要 从 下 面 4 种 类 型 的 任务 之 一 开始 ， 它 
们 分 别 是 : 分 类 、 数 值 预测 、 模 式 识别 或 者 聚 类 。 确 定 的 学 习 任务 将 使 算法 的 选择 变 得 简单 。 
例如 ， 如 果 你 要 进行 模式 识别 任务 ， 可 能 会 应 用 关联 分 析 。 类 似 地 ， 聚 类 问题 可 能 会 用 人均 
值 算法 ， 而 数值 预测 则 会 应 用 回归 分 析 或 者 回归 树 。 

对 于 分 类 来 说 ， 需 要 把 精力 花费 在 为 学 习 问 题 找到 合适 的 分 类 器 。 这 时 候 ， 考 虑 到 不 同 
算法 间 的 各 种 差别 是 很 有 帮助 的 。 例 如 ， 在 分 类 问题 中 ,决策 树 得 到 的 模型 就 容易 理解 ， 而 
神经 网 络 得 到 的 模型 则 很 难 解 释 。 如 果 你 要 设计 一 个 信用 评分 模型 ， 上 述 区 别 就 是 一 个 很 重 
要 的 差别 ， 因 为 法 律 要 求 必须 告知 申请 者 贷款 申请 被 拒绝 的 原因 。 即 使 神经 网 络 算法 能 更 好 
地 预测 贷款 违约 ， 但 是 如 果 不 能 解释 清楚 这 些 预测 ， 那 么 再 好 的 预测 也 是 没有 用 的 。 

接 下 来 的 每 一 章 都 会 给 出 各 种 方法 的 核心 优势 和 劣势 。 尽 管 有 时 候 你 发 现 这 些 特征 在 很 
多 情况 下 使 得 某 些 模型 被 排除 在 考虑 之 外 ， 但 是 模型 的 选择 是 带 有 随机 性 的 。 从 这 个 角度 来 
看 ， 你 可 以 自由 使 用 那些 你 有 信心 的 算法 。 另 外 ， 当 预测 准确 性 是 主要 考虑 因素 时 ， 你 可 能 
需要 测试 多 个 模型 ， 然 后 选择 一 个 最 好 的 。 在 后 面 的 章节 中 ， 我 们 将 学 习 利用 每 个 模型 优点 
的 组 合 模 型 方法 。 


1.6 使 用 R 进行 机 器 学 习 
机 器 学 习 所 需要 的 很 多 算法 都 没有 包含 在 R 的 基本 安装 里 。 幸 亏 R 是 一 款 开源 免费 的 软 
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件 ， 机 器 学 习 算 法 的 功能 不 另外 收费 。 机 器 学 习 算 法 被 很 多 对 R 软件 做 出 贡献 的 专家 加 载 到 
了 R 的 基础 配置 里 。 那 些 能 在 用 户 间 共享 的 R 函数 的 集合 称 为 添加 包 ( package)。 本 书 中 所 
讨论 的 每 个 机 器 学 习 算 法 的 R 免费 添加 包 都 是 已 经 存在 的 。 事 实 上 ， 本 书 中 仅仅 讨论 了 普遍 
运用 的 机 器 学 习 添 加 包 中 很 小 的 一 部 分 。 

如 果 你 对 R 添 加 包 的 广度 感 兴趣 (在 写作 本 书 时 ， 共 有 4209 个 可 用 的 添加 包 )， 你 
可 以 游览 Web 或 者 FTP 服务 器 上 的 RR 综合 文档 网 络 ( Comprehensive R Archive Network， 
CRAN)， 这 些 服 务 器 位 于 全 球 各 地 ， 它 们 提供 最 新 版 本 的 R 软件 和 R 添加 包 以 供 下 载 。 

如 果 你 的 R 软件 是 下 载 得 到 的 ， 很 可 能 你 就 是 从 CRAN 下 载 的 。CRAN 网 站 可 以 由 此 
进入 : 


http://cran.r-project .org/index.html。 


< 、 如 果 你 没有 安装 R，CRAN 网 站 提供 了 R 安装 说 明 ， 给 出 了 遇 到 困难 时 在 
何 处 可 以 获得 帮助 的 信息 。 


通过 页 面 左边 的 Packages 链接 ， 你 可 以 浏览 按照 字母 顺序 排列 或 者 根据 发 布 日 期 排序 
的 添加 包 列 表 。 也 许 更 好 的 是 ，CRAN Task Views (任务 视图 ) 提供 了 一 个 根据 学 科 分 类 整 
理 的 添加 包 列 表 。 机 顺 学 习 的 任务 视图 列 出 了 本 书 所 包含 的 添加 包 (和 其 他 更 多 的 添加 包 )， 
可 以 由 此 进入 : 


http://cran.r-project.org/web/views/MachineLearning.html。 


安装 和 加 载 R 添加 包 

尽管 有 大 量 可 用 的 R 添加 包 ， 但 添加 包 的 格式 实际 上 使 得 它 的 安装 和 使 用 变 成 一 个 很 省 
力 的 过 程 。 为 了 举例 说 明 添加 包 的 应 用 ,我们 将 安装 和 加 载 由 Kurt Hornik 、Christian Buchta 
和 Achim Zeileis 开发 的 RWeka 添 加 包 (想得到 更 多 的 信息 ， 参 考 杂 志 《 Computational 
Statistics 》 第 24 期 第 225 ~ 232 页 的 文章 “ Open-Source Machine Learning: R Meets Weka”)。 
RWeka 添加 包 提 供 了 一 个 基于 Java 平 台 的 RR 能 够 使 用 的 机 器 学 习 算 法 的 函数 集合 ， 该 集合 
由 Ian H. Witten 和 Eibe Frank 开发 。 关 于 Weka 的 详细 人 信息， 参考: 


http://www.cs.waikato.ac.nz/~ml/weka/。. 


为 了 使 用 RWeka 添加 包 ， 如 果 没 有 Java 软件 ， 你 将 需要 预先 安装 (很 多 计 
< 算 机 买 来 的 时 候 预 先 安装 了 Java)。Java 是 一 组 编程 工具 ， 可 以 免费 使 用 ， 
QQ 它 允 许 使 用 跨 平台 的 应 用 ， 比 如 Weka。 想 要 了 解 更 多 信息 ， 或 者 为 你 的 系 

统 下 载 Java， 可 以 访问 : http://java.com。 


1. 安装 R 添加 包 


安装 添加 包 的 最 直接 方式 就 是 通过 install .packages () 函数 。 要 安装 RWeka 添加 
wwaibbt.com D000000 


第 1 章 ”机 器 学 习 简 介 ** 15 


包 , 在 R 命令 提示 符 后 输入 : 

> install.packages ("RWeka') 

R 接 下 来 就 会 连接 到 CRAN 并 上 且 下 载 与 你 的 操作 系统 相 匹 配 的 添加 包 。 一 些 像 RWeka 
这 样 的 添加 包 在 它们 能 够 使 用 之 前 要 求 先 安装 额外 的 添加 包 (这 些 额 外 的 添加 包 称 为 依赖 添 
加 包 (dependency))。 上 默认 情况 下 ， 安 装 程序 会 自动 下 载 并 安装 所 有 的 依赖 添加 包 。 
当 你 第 一 次 安装 添加 包 时 ，R 可 能 会 让 你 选择 一 个 CRAN 镜像 。 如 果 出 现 
了 这 个 对 话 框 ， 那 么 就 选择 地 理 位 置 离 你 最 近 的 镜像 。 这 样 一 般 会 提供 最 快 
的 下 载 速 度 。 


默认 的 安装 选项 对 大 多 数 系统 是 合适 的 。 然 而 ， 有 时 你 可 能 想 把 添加 包 安 装 到 其 他 的 
位 置 。 例 如 ， 如 果 你 没有 系统 的 超级 用 户 权限 或 者 管理 员 权限 ， 你 可 能 需要 指定 其 他 安装 路 

这 可 以 通过 lib 选项 来 完成 ， 如 下 所 示 : 

> install .packages ("RWeka", lib="/path/to/library") 

安装 函数 也 提供 其 他 多 个 安装 选项 : 从 本 地 文件 安装 、 从 源 文件 安装 或 者 使 用 测试 版 本 。 
你 可 以 用 下 面 的 命令 在 帮助 文件 中 阅读 这 些 选项 。 


> ?install.packages 


AL 


~ 


2. 用 图 形 界面 来 安装 


作为 输入 install .packages () 命令 的 男 外 一 种 蔡 代 方法 ，R 提供 了 图 形 用 户 界面 GUI) 来 
安装 添加 包 。 在 微软 的 Windows 操作 系统 中 ， 可 以 用 Packages 菜单 下 的 Install package(s) 
子 命令 来 完成 ， 如 下 图 所 示 。 在 Mac OS X 系统 中 ， 这 个 命令 是 在 Packages & Data 菜单 下 
标记 为 Package Installer 的 子 命令 。 


Load package,... 


Set CRAN mirror... 

Select repositories... 

JInstall package(s)... 
Copyright (C) 20] Update Packages… 


ISBN 3-900051-07- 
Platform: x36 641 


Install package(s) from local zip files... 





在 Windows 系统 中 ， 在 启动 Install package 后 (如果 没有 选择 过 CRAN 镜像 ， 就 弹出 一 
个 窗口 让 你 选择 CRAN 镜像 )， 一 个 添加 包 的 长 列表 将 会 出 现 。 只 要 把 鼠标 滚动 到 RWeka 添 
加 包 的 位 置 ， 然 后 单 击 下 方 的 OK 按钮 ， 就 会 把 该 添加 包 以 及 所 有 的 依赖 添加 包 都 安装 在 默 
认 的 位 置 。 

在 Mac OS X 系统 中 ，Package Installer 菜单 提供 了 额外 的 选项 。 为 了 载 人 添加 包 列 表 ， 
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可 以 单 击 Get List 按钮 。 将 鼠标 滚动 到 Rweka 添加 包 (或 者 使 用 Package Search 功能 )， 
再 单 击 Install Selected- 注意 ,在 默认 的 情况 下 .除非 选中 Install Dependencies 复 选 框 ， 
否则 Mac OS X 的 添加 包 安 装 程序 是 不 会 安装 依赖 添加 包 的 ， 如 下 图 所 示 。 


Fa 








3. 载 人 R 添加 包 


为 了 节约 内 存 ，R 默认 不 会 载 人 每 个 已 安装 的 添加 包 。 当 用 户 需要 某 个 添加 包 时 ， 只 要 
用 library() 函数 把 该 包 载 人 及 即 可 。 


~ 汪 、 library 这 个 函数 名 使 得 它 容易 与 package 相互 摘 混 。 可 是 ， 准 确 来 说 ， 
QQ library 指 的 是 安装 添加 包 的 位 置 ， 而 不 是 添加 包 本 身 。 


为 了 加 载 先前 我 们 安装 的 RWeka 添加 包 ， 可 以 输入 下 面 命令 : 


> library (RWeka) 
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除了 RWeka 包 以 外 ,在 后 面 的 章节 中 我 们 还 将 会 用 到 其 他 几 个 添加 包 。 当 使 用 它们 时 ， 
我 们 会 提供 相应 的 安装 说 明 。 


1.7 总结 


机 器 学 习 起 源 于 统计 学 、 数 据 库 科 学 和 计算 机 科学 的 交互 。 它 是 一 个 强大 的 工具 ， 能 够 
在 大 量 的 数据 中 找到 可 行动 的 洞察 。 然 而 ， 人 们 仍 需 持 谨慎 的 态度 ， 避 免 现 实生 活 中 机 器 学 
习 的 普遍 滥用 。 

从 概念 上 讲 ， 机 天 学 习 涉 及 把 数据 抽象 为 结构 化 表示 ， 并 把 这 个 结构 化 表示 进行 一 般 
化 ， 然 后 推广 到 行动 中 。 从 更 加 实用 的 角度 讲 ， 机 器 学 习 者 使 用 包含 所 学 习 概念 的 案例 和 特 
征 的 数据 ， 然 后 把 这 个 数据 概括 成 一 个 模型 的 形式 ， 接 着 该 模型 就 被 用 作 预 测 或 者 描述 的 目 
的 。 这 些 还 能 被 细 分 为 具体 的 任务 ， 包 括 分 类 、 数 值 预测 、 模 式 识 别 和 聚 类 。 在 大 量 的 选择 
中 ， 机 天 学 习 算 法 都 是 以 输入 数据 和 学 习 任 务 为 基础 进行 算法 选择 的 。 

R 通 过 及 社区 作者 编写 的 添加 包 来 为 机 器 学 习 提 供 支 持 。 这 些 强大 工具 的 下 载 是 免费 
的 ， 但 是 要 在 使 用 之 前 先 安装 它们 。 在 第 2 章 中 ,将 继续 介绍 用 于 为 机 器 学 习 管 理 和 准备 数 
据 的 基本 R 命令 。 
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数据 的 管理 和 理解 


任何 机 器 学 习 项 目 初 期 的 核心 部 分 都 是 与 管理 和 理解 所 收集 的 数据 有 关 的 。 尽 管 这 些 工 
作 不 像 建立 和 部 署 模型 那样 令 人 有 成 就 感 (建立 和 部 署 模型 阶段 就 开始 看 到 了 劳动 的 收获 )， 
但 是 你 不 能 忽视 这 些 准备 工作 。 

任何 学 习 算 法 的 好 坏 取决 于 输入 数据 的 好 坏 。 在 很 多 情况 下 ， 输 入 数据 是 复杂 的 、 读 乱 
的 并 且 取 自 多 种 不 同 渠 道 和 格式 。 因 为 这 些 复杂 性 ， 所 以 投入 到 机 器 学 习 项 目 中 的 很 大 一 部 
分 精力 要 花 在 数据 准备 和 探索 过 程 中 。 

本 章 分 成 3 节 。 第 一 节 讨论 R 用 来 存储 数据 的 基本 数据 结构 。 学 完 这 一 节 后 ， 你 创建 和 
管理 数据 集 时 ， 就 对 这 些 数据 结构 非常 熟 秋 了。 第 二 节 是 实践 ， 这 节 讨 论 了 从 R 中 输入 或 者 输 
出 数据 的 几 种 常用 函数 。 第 三 节 通 过 介绍 一 个 探索 真实 数据 集 的 过 程 来 说 明理 解数 据 的 方法 。 

学 完 本 章 后 ， 你 将 理解 : 

口 基本 的 R 数据 结构 以 及 如 何 使 用 它们 来 存储 和 提取 数据 。 

口 如 何 把 不 同 来 源 格式 的 数据 导入 R。 

口 理解 并 可 视 化 复杂 数据 的 常用 方法 。 

因为 R 考虑 数据 的 方式 定义 了 你 应 该 考虑 数据 的 方式 ， 所 以 在 进入 数据 准备 的 工作 之 
前 ,理解 基 本 的 R 数据 结构 是 很 有 帮助 的 。 然 而 ， 如 果 你 已 经 对 R 的 数据 结构 很 熟悉 了 ， 你 
完全 可 以 跳 过 这 部 分 ， 直 接 学 习 数 据 预 处 理 部 分 。 


2.1 R 数据 结构 


在 程序 语言 中 有 很 多 种 形式 的 数据 结构 ， 在 应 用 到 特定 的 任务 时 ,它们 各 有 优势 和 劣 
势 。 因 为 R 是 一 个 在 统计 数据 分 析 中 广泛 运用 的 程序 语言 ， 所 以 R 所 用 的 数据 结构 的 设计 目 
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的 是 使 它 易于 处 理 这 类 任务 的 数据 。 在 机 器 学 习 中 经 常 使 用 的 R 数据 结构 是 : 向量、 因子 、 
列表 、 数 组 和 数据 框 。 每 一 种 数据 类 型 都 针对 一 类 具体 的 数据 管理 任务 ， 所 以 知道 它们 是 如 
何 与 R 项 目 相互 交互 是 至 关 重要 的 。 


2.2 向 量 


R 的 基本 数据 结构 是 向 量 。 向 量 存储 一 组 有 序 的 值 ， 称 为 元 素 。 一 个 向 量 可 以 包含 任意 数 
量 的 元 素 。 然 而 ， 所 有 的 元 素 必 须 是 一 样 的 类 型 ， 比 如 ， 一 个 向 量 不 能 同时 包含 数字 和 文本 。 

在 机 器 学 习 中 常用 的 几 种 向 量 类 型 包括 : integer ( 整 型 ,没有 小 数位 的 数字 )、 
numeric (数值 型 ， 包 含 小 数 的 数字 ) ,character (字符 型 ， 文 本 数据 ) 或 者 1ogical ( 逻 
辑 型 ， 取 值 为 TRUE 或 者 FALSE )。 还 有 两 个 特殊 的 值 : NULL ， 用 来 表明 没有 任何 值 ， NR， 
用 来 表明 一 个 缺失 值 。 

手工 输入 大 量 的 数据 会 单调 乏味 ， 但 是 一 些 简单 的 向 量 还 是 可 以 用 组 合 函 数 (combine 
function)c () 来 创建 。 向 量 也 能 通过 使 用 箭头 运算 符 “<- ”来 给 它 赋 一 个 名 字 ， 这 是 R 的 赋 
值 操 作 符 ， 与 很 多 其 他 程序 语言 中 的 赋值 操作 符 “=” 的 使 用 方法 差不多 。 

例如 ， 我们 构建 一 个 包含 3 个 体检 病人 数据 的 向 量 。 创 建 一 个 字符 型 向 量 subject 
name， 它 包含 3 个 病人 的 姓名 ; 一 个 数值 型 向 量 temperature， 它 包含 每 个 病人 的 体温 ; 
以 及 一 个 逻辑 型 向 量 flu_status， 它 包含 每 个 病人 的 诊断 情况 ， 如 果 病 人 患 有 流感 取 值 
为 TRUE， 否 则 为 FALSE。3 个 向 量 如 下 所 示 : 


> subject name <- c("John Doe", "Jane Doe", "Steve Graves') 
> temperature <- c(98.1, 98.6, 101.4) 
> flu_ status <- Cc(FALSE, FALSE, TRUE) 


因为 R 中 的 向 量 有 固有 的 顺序 ， 所 以 其 数据 能 通过 计算 向 量 中 各 元 素 的 序号 来 访问 ， 序 
号 是 从 1 开始 算 起 的 ， 并 且 在 向 量 名 字 的 后 面 用 方 括 号 括 起 这 个 序号 (例如 ，[ 和 ])。 例 如 ， 
为 了 获得 温度 向 量 中 Jane Doe 或 者 序号 为 2 的 病人 的 体温 ， 只 要 简单 地 输入 : 


> temperature [2] 
[1] 98.6 


为 了 从 向 量 中 提取 数据 ，R 提供 了 各 种 方便 的 方法 。 一 个 范围 内 的 值 可 以 通过 冒号 操作 
符 获 得 。 例 如 ， 为 了 获得 Jane Doe 和 Steve Graves 的 体温 ， 输 入 : 


> temperature[2:3] 
[1] 98.6 101.4 


通过 指定 一 个 负 的 序号 可 以 把 该 项 排除 在 输出 数据 之 外 。 要 想 排除 Jane Doe 的 体温 数 
据 ， 输 入 : 


> temperature[-2] 
EL] 98.1 101.4 


最 后 ， 可 以 通过 一 个 逻辑 型 向 量 来 标识 每 一 项 是 否 包含 在 内 ， 有 了 时候 这 也 是 很 有 用 的 。 
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例如 ， 需 要 包括 前 两 个 温度 读数 ， 但 是 排除 第 三 个 ， 就 可 以 输入 : 


> temperature [c (TRUE, TRUE, FALSE)] 
[i] 98.1 98.6 


不 久 你 将 会 看 到 ， 向 量 是 很 多 其 他 R 数据 结构 的 基础 。 因 此 ， 懂 得 不 同类 型 的 向 量 操作 
对 在 R 中 操作 数据 是 很 重要 的 。 


下 载 实例 代码 你 能 用 你 的 账号 在 网 站 http://www.packtpub.com 上 下 载 你 已 

- 治 、 经 购买 的 所 有 Packt 出 版 社 的 书 的 实例 代码 文件 。 如 果 你 是 在 其 他 地 方 购买 
这 本 书 的 ， 你 可 以 通过 访问 http:Wwww.packtpub.com/support 网 站 并 且 注 册 ， 
可 以 通过 电子 邮件 把 文件 直接 发 给 你 。 


2.3 因子 


如 果 你 回忆 第 1 章 的 内 容 ， 用 类 别 值 来 代表 特征 的 属性 称 为 名 义 属性 。 尽 管 可 以 用 一 个 
字符 型 向 量 来 存储 名 义 属 性 数据 ， 但 R 提供 了 称 为 因子 (factor) 的 专用 数据 结构 来 表示 这 
种 属性 数据 。 其 实 因子 是 向 量 的 一 个 特例 ， 它 单独 用 来 标识 名 义 属 性 (或 变量 )。 在 上 面 构 
建 的 医学 体检 数据 集中 ， 我 们 可 以 用 一 个 因子 来 表示 gender (性 别 )， 因 为 它 有 两 个 类 别 : 
MALE 和 FEMRALE 。 

为 什么 不 用 character (字符 型 ) 向 量 呢 ?使 用 因子 的 一 个 优势 在 于 : 因为 类 别 标签 
只 存储 一 次 ， 所 以 它们 一 般 比 字符 型 向 量 更 有 效 。 不 像 字 符 型 向 量 需 要 存储 MALE、MALE、 
FEMRALE ， 在 使 用 因子 时 ， 计 算 机 只 要 存储 1、1、2， 这 样 可 以 节约 内 存 。 另 外 ， 一 些 机 器 
学 习 算 法 是 用 特别 的 程序 来 处 理 分 类 变量 的 ， 把 分 类 变量 编码 为 因子 可 以 确保 模型 能 够 合理 


地 处 理 这 类 数据 。 
要 把 字符 型 向 量 转换 成 因子 ， 只 需要 应 用 factor () 函数 。 例 如 : 
> gender <- factor(c("MALE", "FEMALE", "MALE")) 
> gender 


[1] MALE FEMALE MALE 
Levels: FEMALE MALE 


注意 ， 当 性 别 数据 显示 出 来 以 后 ，R 会 输出 额外 的 信息 来 表明 性 别 因 子 的 水 平 。 水 平 由 
数据 可 能 取 到 的 所 有 类 别 组 成 ， 在 这 个 例子 中 是 MALE 或 者 FEMALE。 

当 创建 因子 以 后 ， 可 以 加 入 另外 的 没有 在 数据 中 出 现 的 水 平 。 假 设 我 们 用 另 一 个 因子 表 
示 血 型 变量 ， 如 下 所 示 : 


> blood <- factor(c("O", "AB", "A"), 

levels = Cc("A", "B", "AB", "0O")) 
> blood 
[1] O AB A 


Levels: ABABDO 
注意 ， 当 我 们 为 3 个 病人 定义 blood (血型 ) 因子 时 ,我 们 用 levels = 语句 来 给 出 一 
ww aibbt.com DOOODODOOD 


第 2 章 “数据 的 管理 和 理解 ** 21 


个 额外 的 向 量 ， 该 向 量 给 出 了 4 个 可 能 的 血型 。 这 样 ， 即 使 数据 仅 包 含 o 型 、AB 型 和 A 型 ， 
但 输出 “Levels: A B AB 0” 指 出 ， 所 有 的 4 种 血型 和 血型 因子 blood 存储 在 一 起 - 
存储 额外 的 水 平 使 未 来 增加 其 他 血型 类 型 成 为 可 能 。 它 也 保证 了 尽管 血型 B 没有 被 记录 在 我 
们 的 数据 中 ， 但 是 当 我 们 创建 血型 类 型 表 时 ， 我 们 能 知道 类 型 B 是 存在 的 。 


2.3.1 列表 


男 一 种 特殊 类 型 的 向 量 一 一 列表 ， 它 用 来 存储 一 组 有 序 的 值 。 然 而 ， 不 像 向 量 要 求 所 有 
的 元 素 都 必须 是 同一 种 类 型 ， 列 表 人 允许 收集 不 同类 型 的 值 。 由 于 这 个 灵活 性 ， 列 表 一 直 用 于 
存储 不 同类 型 的 输入 和 输出 数据 ， 以 及 存储 机 器 学 习 模 型 所 使 用 的 结构 参数 。 

例如 ， 考 虑 我 们 构建 的 体检 病人 的 数据 集 ，3 个 病人 的 数据 存储 在 5 个 向 量 中 。 如 果 我 
们 要 显示 John Doe (对 象 1 ) 所 有 的 数据 ， 我 们 需要 输入 5 条 R 命令 : 


> subject name[1] 
[1] "John Doe" 

> temperature[1] 
[1] 98.1 

> flu status [1] 
[1] FALSE 

> gender [1] 

[1] MALE 

Levels: FEMALE MALE 
> blood [1] 

EL] 光 

Levels: ABABO 


显示 一 个 病人 的 体检 数据 看 上 去 像 是 一 个 庞大 的 工程 。 列 表 结 构 使 我 们 能 够 把 所 有 病人 
的 数据 放 到 一 个 对 象 里 ， 使 我 们 能 够 重复 使 用 。 

与 使 用 c () 创建 一 个 向 量 相 类 似 ， 列 表 的 创建 使 用 1ist () 函数 ， 与 下 面 例子 中 显示 
的 一 样 。 一 个 明显 的 不 同 是 ， 当 列表 建立 以 后 ， 你 可 以 选择 给 列表 中 每 一 项 的 值 命名 (与 下 
面 例子 中 的 fullname 一 样 )。 名 字 不 是 必需 的 ， 但 是 它 使 得 接 下 来 能 够 通过 名 字 来 访问 列 
表 中 的 值 ， 而 不 是 像 向 量 那样 通过 位 置 序号 。 


> Subjectl <- list(fullname = subject name[1], 
temperature = temperature[1], 
flu status = flu status [1]， 
gender = gender[1], 
blood = blood[1]) 


现在 输出 一 个 病人 的 数据 仅 需 要 输入 下 列 简单 的 一 条 命令 : 


> subject1 
$sfullname 
[1] "John Doe" 


$stemperature 
[1] 98.1 
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$flu status 
1] FALSE 


sgender 
[1] MALE 
Levels: FEMALE MALE 


$blood 
[JJ 向 
Levels: ABABO 


注意 ， 值 是 由 前 面 命 令 中 指定 的 名 字 标 识 的 。 尽 管 列表 也 能 用 访问 向 量 的 方法 来 访问 ， 





但 是 名 字 使 得 访问 列表 值 变 得 更 加 明确 。 如 下 面 所 示 ， 它 不 需要 记 住 温度 所 在 的 位 置 : 


后 ， 


> Subjectl [2] 
StemPezrature 
[1] '98: 工 


通过 在 列表 名 后 面 附加 一 个 “$” 符 号 和 值 的 名 字 ， 直 接 访问 温度 会 变 得 很 简单 : 


> Subject1l1S$Stemperatuze 
[1] 98.1 


如 果 在 列表 中 增加 或 者 移 除 某 些 值 ， 通 过 名 字 来 访问 值 的 方式 能 保证 在 列表 序号 改变 以 
不 会 取 回 错误 的 列表 项 。 
也 可 以 通过 指定 一 个 名 字 向 量 来 获取 列表 中 的 多 个 列表 项 : 


> subjectl[c("temperature", "flu status")] 
$temperature 
[1] 98.1 


$flu status 
[1] FALSE 


尽管 整个 数据 集 能 用 一 个 列表 (或 者 列表 的 列表 ) 来 构建 但 是 由 于 构建 数据 集 是 如 此 


常用 ， 所 以 R 专门 为 这 个 任务 提供 了 一 种 特殊 的 数据 结构 ( 即 数据 框 )。 
2.3.2 ”数据 框 


又 有 列 数据 ， 所 以 它 是 一 个 与 电子 表格 或 数据 库 相 类 似 的 结构 。 在 R 术语 中 ， 数 据 框 定义 为 ， 


到 目前 为 止 ， 机 器 学 习 中 使 用 的 最 重要 的 R 数据 结构 就 是 数据 框 。 因 为 它 既 有 行 数据 


一 个 向 量 列 表 或 者 因子 列表 ， 每 一 列 都 有 相同 数量 的 值 。 因 为 数据 框 准 确 来 说 是 一 个 向 量 列 


量 ， 


所 以 它 结合 了 向 量 和 列表 两 个 方面 的 特点 。 
下 面 为 前 面 用 到 的 病人 数据 集 构 建 一 个 数据 框 。 这 里 我 们 使 用 前 面 创建 的 病人 数据 向 
data .frame () 了 艺 数 把 它们 组 合成 一 个 数据 框 : 


> pt_ data <- data.frame (subject name, temperature, flu status, 
gender, blood, stringsAsFactors = FALSE) 


你 可 能 在 上 述 代 码 中 注意 到 一 些 新 的 东西 。 它 加 入 了 一 个 新 的 参数 stringAsFactors 


FALSE。 如 果 不 指定 这 个 选项 ，R 将 会 自动 把 每 个 字符 向 量 转化 为 因子 。 这 个 参数 有 时 
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候 是 有 用 的 ， 但 有 时 候 又 会 显得 累 歼 。 例如， 这 里 ，subject_name 字段 显然 不 是 分 类 
数据 ， 其 中 的 取 值 也 不 是 分 类 变量 的 类 别 。 因 此 ,仅仅 在 任务 需要 的 时 候 ， 我 们 才 会 设置 
stringsAsFactors 选项 为 TRUE， 使 字符 转化 成 因子 。 

当 我 们 显示 pt_data 数据 框 时 ， 可 以 看 到 它 的 结构 与 先前 使 用 的 数据 结构 略 有 不 同 : 


> pt_data 

subject name temperature flu status gender blood 
1 John Doe 98.1 FALSE MALE O 
2 Jane Doe 98.6 FALSE FEMALE AB 
3 Steve Graves 101.4 TRUE MALE A 


与 一 维 向 量 、 因 子 和 列表 相 比 ， 数 据 框 是 两 维 的， 因此 它 显示 为 矩阵 格式 。 在 数据 框 
中 ,病人 的 每 个 数据 向 量 为 一 列 ， 每 个 病人 的 数据 是 一 行 。 用 机 器 学 习 术 语 来 讲 ， 列 代表 的 
是 特征 或 属性 ， 行 代表 的 是 案例 。 

为 了 提取 整 列 〈( 即 整个 向 量 ) 数据 ， 利 用 数据 框 就 是 向 量 列 表 这 一 事实 。 与 列表 相 类 似 ， 
提取 一 个 单独 的 元 素 最 直接 的 方法 (这 里 是 提取 一 个 向 量 或 者 一 列 数据 )， 是 通过 名 字 来 引用 
它 。 例 如 ， 为 了 提取 subject_name 向 量 ， 输 入 如 下 命令 : 


> pt data$subject name 


[1] "John Doe" "Jane Doe" "Steve Graves" 
与 列表 相 类 似 ， 可 以 用 名 称 向 量 从 一 个 数据 框 中 提取 多 列 数据 : 
> pt datal[lc("temperature", "flu status")] 
temperature flu status 
98.1 FALSE 
2 98.6 FALSE 
3 101.4 TRUE 


当 我 们 通过 这 种 方式 访问 数据 框 时 ， 输 出 的 结果 还 是 一 个 数据 框 ， 它 包含 目标 列 所 有 行 
: 的 数据 。 你 也 可 以 输入 pt_data[2:3] 来 提取 temperature 和 flu status 列 ， 但 是 
通过 名 字 来 列 出 所 要 求 的 列 将 会 使 R 代码 清晰 、 容 易 修改 。 
” ”为 了 提取 数据 框 中 的 值 ， 我 们 可 以 用 前 面 学 过 的 访问 向 量 中 值 的 方法 , 但 是 有 一 个 很 
重要 的 不 同 。 因 为 数据 框 是 两 维 的 ， 所 以 它 需 要 你 指定 所 要 提取 的 数据 的 行 和 列 。 格 式 为 
“ [rows, colums]”， 先 指定 行 号 ， 接 着 是 一 个 逗号 ， 青 指定 列 号 ， 行 号 和 列 号 都 是 从 1 开 
始 的 。 
例如 ， 为 了 提取 病人 数据 框 中 第 一 行 、 第 二 列 的 值 (John Doe 的 体温 值 )， 可 以 输入 : 


> pt _ datal[l1l, 2] 
[1] 98;1 


如 果 需 要 提取 多 于 一 行 或 者 一 列 的 数据 ， 可 以 指定 所 需要 的 数据 所 对 应 的 行 号 向 量 和 列 
号 向 量 来 完成 。 下 面 的 语句 将 从 第 1、3 行 以 及 第 2、4 列 中 提取 数据 : 


> pt_datal[lc(1, 3), c(2, 4)] 
temperature gender 

站 $8 MALDE 

3 101.4 MALE 
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要 提取 所 有 行 或 者 列 ， 不 用 一 一 列举 ， 只 要 让 行 或 者 列 的 部 分 空白 就 行 了 。 例 如 ， 提 取 
第 一 列 中 所 有 行 的 数据 : 


5 pt Gatal, 1] 
[1] "John Doe' "Jane Doe" "Steve Graves" 


提取 第 一 行 中 所 有 列 的 数据 : 


> Pt_dqata[1，] 
subject name temperature flu status gender blood 


1 John Doe 98.1 FALSE MALE O 
提取 所 有 数据 : 
> Pt_dqata[ ，] 

subject name temperature flu status gender blood 
1 John Doe 98.1 FALSE MALE O 
2 Jane Doe 98 .6 FALSE FEMALE AB 
3 Steve Graves 101.4 TRUE MALE A 


前 面 学 习 的 访问 列表 和 向 量 中 值 的 方法 也 可 以 用 来 提取 数据 框 的 行 和 列 。 例 如 ， 列 除 
了 能 通过 位 置 访问 外 ， 也 能 通过 名 称 访问 ， 并 且 负 号 也 能 用 来 排除 特定 行 或 者 列 的 数据 。 因 
此 ， 命 令 : 

> Pt_data[c(I1，3)，c('"temperature"'，"gendqez")] 

等 价 于 : 

2 pt_datal-2, CG(-1; 3 ~5)] 

为 了 熟练 运用 数据 框 ， 可 以 尝试 用 前 面 的 病人 数据 来 练习 这 些 操 作 。 或 者 ， 如 果 用 你 自 
己 的 数据 集 进行 练习 就 更 好 了 。 这 些 操作 类 型 对 我 们 以 后 将 学 习 的 章节 是 很 重要 的 。 


2.3.3 ”矩阵 和 数组 


除了 数据 框 以 外 ，R 提供 了 用 于 存储 表格 形式 数据 的 专用 数据 结构 。 和 矩阵 是 一 种 表示 行 
和 列 数据 的 两 维 表格 数据 结构 。R 矩阵 能 包含 任何 一 种 单一 类 型 的 数据 ， 但 是 大 多 数 情况 下 
和 矩阵 是 用 来 做 数学 运算 的 ， 因 此 矩阵 通常 存储 数值 型 数据 。 

要 想 创 建 一 个 矩阵 ， 仅 需要 向 matrix() 函数 提供 一 个 数据 向 量 ， 紧 跟着 用 一 个 参数 
指定 行 数 (nrow) 或 者 列 数 (ncol )。 例 如 ， 要 想 创建 一 个 2 x 2 的 矩阵 ， 用 于 存储 字母 表 
前 4 个 字母 ， 使 用 nrow 参数 要 求 数据 分 为 两 行 : 


” Mm <= mtrix(e('a', ‘Db, er dd'), row =: 2) 
>m 
[,1L] [,2] 
| ph | "nan men 
[2',] Wp" naQn 
这 个 与 用 ncol = 2 产生 的 和 矩阵 是 等 价 的 : 
> Mm <- matrix(ec('a!, 'b', 'c', aa) ncol = 2) 
>m 
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[,1] [,2] 
[1,] wa Woe" 
[有 np" "d" 


你 将 会 注意 到 R 先 加 载 矩 阵 的 第 一 列 ， 然 后 加 载 第 二 列 。 这 称 为 按 列 顺序 。 为 了 进一步 
说 明 这 个 概念 ， 观 察 当 我 们 在 和 矩阵 中 加 入 更 多 值 以 后 会 发 生 什么 。 
一 共有 6 个 值 ， 设 定 nrow 参数 为 2， 这 将 创建 一 个 具有 2 行 3 列 的 矩阵 : 


> We matristeta bi ‘ets td's "ery TS); DEOW = 2) 
>m 
[ld [24 Lay 
[tial mr Mel Mey 
2 "Er ma En 


类 似 地 ， 设 定 ncol 参数 为 2， 这 将 创建 一 个 具有 3 行 2 列 的 矩阵 : 


> Wm =. Watrix(le( a bs "ely ry Ey EE) neol ss 2) 
>m 

[si] [2] 
[1 na rd" 


[3,] ner "fy 

与 数据 框 一 样 ， 和 矩阵 中 的 值 也 能 用 “ [rows,column] ”这 样 的 方式 来 提取 。 例 如 ， 
m[1，1] 返回 值 a, m[3， 2] 从 矩阵 m 中 提取 值 E。 类 似 地 ， 也 可 以 提取 矩阵 的 整 行 或 者 
整个 列 ， 例 如 : 


[1] wa "bw ne 

与 矩阵 结构 非常 接近 的 是 数组 (array)， 它 是 一 个 多 维 数据 表 。 一 个 矩阵 含有 行 和 列 值 ; 
一 个 数组 包含 行 、 列 以 及 任意 多 层 的 值 。 尽 管 在 后 面 的 章节 中 我 们 偶尔 会 使 用 矩阵 ， 但 是 数 
组 的 使 用 就 超出 了 本 书 的 学 习 范 围 。 


2.4 用 R 管 理 数据 


当 处 理 大 量 数据 集 时 ， 面 临 的 挑战 包括 从 各 种 不 同 来 源 中 收集 、 准 备 和 管理 数据 。R 提 
供 了 从 诸多 常见 格式 的 数据 源 加 载 数据 的 工具 ， 它 们 使 得 这 些 任务 变 得 容易 。 


2.4.1 ”保存 和 加 载 R 数据 结构 


当 你 花费 了 很 长 时 间 把 某 种 数据 框 转换 成 你 所 需要 的 数据 结构 时 ， 你 不 必 每 次 重新 打开 
R 会 话 ， 从 头 开始 重复 前 面 的 工作 。 要 想 把 一 种 特定 的 数据 结构 保存 到 一 个 文件 里 ， 使 它 以 
后 能 被 重新 加 载 或 者 把 这 种 数据 结构 转移 到 另 一 个 系统 里 ， 可 以 用 save () 函数 。save () 
函数 把 R 数据 结构 写 到 由 file 参数 设 定 的 位 置 。R 数据 文件 有 一 个 文件 扩展 名 .RData。 
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如 果 我 们 有 3 个 对 象 x、y 和 z， 可 以 用 下 面 的 命令 把 它们 保存 到 文件 mydata.RData 中 

> save(x, y, z, file = "mydata.RData") 

无 论 x、y 和 z 是 向 量 、 因 子 、 列 表 或 者 数据 框 ， 它 们 都 会 保存 到 文件 mydata .RData 里 。 

load () 命令 将 会 加 载 任何 一 种 保存 在 以 “ .RData” 为 文件 扩展 名 的 文件 中 的 数据 结 
构 。 的 “mydata.RData” 文 件 ， 只 需要 输入 : 

> load ("mydata.RData") 


这 将 会 重新 创建 x、y 和 z 数据 结构 。 


要 特别 小 心 你 正在 加 载 的 数据 结构 ! 你 用 load() 命令 导入 的 文件 中 所 存 
储 的 所 有 数据 结构 都 会 加 载 到 你 的 工作 区 ， 即 使 它们 会 覆盖 工作 区 中 其 他 一 
些 你 正在 用 的 东西 ， 


-AM 


如 果 你 需要 立即 结束 当前 的 R 会 话 ，save.image() 命令 将 会 把 你 所 有 的 会 话 写 人 一 
个 叫做 .RData 的 文件 里 。 默 认 情 况 下 ，R 将 会 在 下 次 启动 时 寻找 这 个 文件 ， 上 次 R 结束 时 
的 R 会 话 将 会 重 现 ， 就 像 你 最 后 离开 R 时 一 样 


2.4.2 ”用 CSV 文件 导入 和 保存 数据 

公开 的 数据 通常 存储 在 文本 文件 中 。 文 本 文件 几乎 可 以 在 所 有 的 计算 机 和 操作 系统 中 阅 
读 ， 这 种 格式 几乎 全 球 通行 。 由 于 Microsoft Excel 类 的 电子 表格 数据 操作 容易 便捷 ， 所 以 文 
本 格式 文件 也 能 从 此 类 程序 中 导入 或 者 导出 。 

表格 数据 文件 (tabular 或 者 table) 采用 矩阵 形式 的 结构 ， 这 种 形式 数据 的 每 一 行 表 示 一 
个 案例 ， 每 个 案例 有 相同 数量 的 特征 。 每 一 行 的 特征 值 由 一 个 预先 定义 的 称 为 分 隔 符 的 符号 
来 区 分 。 通 常情 况 下 ， 表 格 数据 文件 的 第 一 行 给 出 数据 每 一 列 的 名 称 。 该 行 称 为 标题 行 。 

最 常用 的 表格 文本 文件 格式 可 能 是 逗号 分 隔 值 ( Comma-Separated Value，CSV) 文件 。 
根据 名 字 可 知 ， 这 种 文件 格式 使 用 逗号 作为 分 隔 符 。CSYV 文件 能 在 很 多 常用 的 应 用 程序 内 导 
人 和 导出 。 一 个 表示 先前 构建 的 医疗 体检 数据 集 的 CSV 文件 就 像 下 面 这 样 : 


subject name,temperature,flu status,gender,blood type 
John Doe,98.1,FALSE,MALE,O 

Jane Doe,98.6,FALSE,FEMALE,AB 

Steve Graves,101.4,TRUE,MALE,A 


要 想 把 这 个 CSV 文件 加 载 到 R 中 ,使 用 read .csv() 函数 ， 如 下 所 示 : 
> pt_data <- read.csv('"pt data.csv'", stringsAsFactors = FALSE) 


给 定 R 工作 目 录 下 的 一 个 病人 数据 文件 pt_data .csv， 上 面 的 命令 将 会 把 CSV 文件 读 
和 人 到 名 为 Pt_daata 的 数据 框 。 就 像 先前 在 构建 数据 框 时 那样 ， 我 们 需要 使 用 stringsRs 
Factors = FALSE 这 个 参数 来 阻止 R 把 所 有 的 文本 变量 转换 成 因子 。 这 个 转换 的 步骤 最 
好 是 由 你 而 不 是 由 R 来 操作 。 


如 果 数 据 是 在 R 工作 目录 之 外 ， 你 要 详细 列 出 CSV 文件 的 路 径 。 例 如 ， 当 调用 read. 
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csv() 荫 数 时 要 输入 /path/to/mydata.csv,。 

默认 情况 下 ，R 假设 CSV 文件 包含 一 个 标题 行 ， 标 题 行列 出 了 数据 集 内 特征 的 名 字 。 如 
果 一 个 CSV 文件 没有 标题 行 ， 要 指定 选项 header = FALSE， 就 像 下 面 命 令 显 示 的 那样 ， 
R 用 V1、V2 等 默认 值 来 指定 属性 名 : 


> mydata <- read.csv("mydata.csv", stringsAsFactors = FALSE, 
header = FALSE) 


read.csv() 函数 是 read.table() 也 数 的 一 个 特例 。read .table() 函数 能 读 取 
具有 多 种 不 同 格式 的 表格 数据 ,包括 其 他 的 分 隔 形 式 ， 比 如 制 表 符 分 隔 的 值 ( Tab-Separated 
Value，TSV)。 要 想 了 解 更 多 关于 read.table() 困 数 族 的 信息 ， 用 命令 ?read.table 
来 查询 R 的 帮助 页 面 。 

要 想 把 一 个 数据 框 保存 成 CSV 文件 ， 需 要 使 用 write .csv() 水 数 。 如 果 数 据 框 名 是 
pt_data， 只 需要 输入 : 

> write.csv(pt data, file = "pt _ data.csv") 


这 就 会 把 一 个 名 为 pt_qdata .csv 的 文件 保存 到 R 工作 目录 中 。 


2.4.3” 从 SQL 数据 库 导 入 数据 


如 果 数 据 存储 在 一 个 ODBC SQL (Open Database Connectivity, ODBC ; Structured 
Query Language，SQL) 数据 库 中 ， 比 如 Oracle、MySQL 、PostgreSQL 、Microsoft SQL 或 者 
SQLite。Brian Ripley 创建 的 RODBC 添加 包 可 以 把 这 类 数据 直接 导入 R 数据 框 中 。 

不 论 是 何 种 操作 系统 还 是 数据 库 管 理 系 统 ( Database Management System，DBMS )， 
ODBC 都 是 一 个 连接 到 数据 库 的 标准 规范 。 如 果 你 先前 有 通过 ODBC 连接 到 数据 库 的 经 验 ， 
你 很 有 可 能 是 通过 数据 源 名 称 (Data Source Name, DSN) 连接 的 。 要 想 使 用 RODBC 添加 包 ， 
你 需要 DSN， 加 上 一 个 用 户 名 和 密码 (如果 数据 库 需 要 )。 


配置 ODBC 连接 的 指令 与 特定 的 操作 系统 和 DBMS 相 结 合 的 方式 高 度 相 

< 关 。 如 果 你 在 设 定 ODBC 连接 时 遇 到 困难 ， 就 需要 与 数据 库 管理 员 确 认 原 
因 。 另 一 种 获得 帮助 的 方式 是 通过 RODBC 添加 包 的 附加 文档 ( vignette)， 
你 能 在 及 中 用 命令 print (vignette ("RODBC") ) 来 访问 。 


如 果 你 还 没有 安装 该 添加 包 ， 需 要 先 安装 并 且 加 载 RODBC 添加 包 : 


> instal1l.packages ("RODBC") 
> library (RODBC) 


接 下 来 ,我 们 将 打开 一 个 到 DSN 为 my_dsn 的 数据 库 的 连接 ， 该 连接 的 名 称 为 
mydb: 


> mydb <- odbcConnect ("my_dsn") 


另外 ， 如 果 你 的 ODBC 连接 需要 用 户 名 和 密码 ， 在 调用 odbcConnect () 函数 时 应 该 
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> mydb <- odbcConnect ("my _dsn", uid = "my_username" 
pwd = "my_password") 


既然 我 们 有 一 个 开放 的 数据 库 连 接 ， 就 能 够 用 sqlQuery () 函数 执行 SQL 查询 得 到 数 
据 库 的 行 数据 ， 从 而 建立 R 数据 框 。 这 个 函数 与 很 多 创建 数据 框 的 函数 一 样 ， 人 允许 我 们 指定 
stringsAsFactors = FRLSE 来 阻止 R 把 字符 型 数据 转换 成 因子 。 

sqlQuery() 函数 使 用 典型 的 SQL 查询 语言 ， 如 下 所 示 : 


> patient query <- "select * from patient data where alive = 1" 
> patient data <- sqlQuery (channel = mydb, query = patient query, 
stringsAsFactors = FALSE) 


得 到 的 patient_data 变量 是 一 个 数据 框 ， 它 包含 使 用 SQL 查询 选择 的 所 有 存储 在 
patient _query 中 的 数据 行 。 

如 果 你 已 经 结束 使 用 数据 库 ， 用 下 面 的 命令 关闭 ODBC 连接 : 

> odbcClose (mydb) 
这 将 会 关闭 mydb 连接 。 尽 管 R 会 在 R 会 话 结束 后 自动 关闭 ODBC， 但 这 样 明显 关 掉 连接 是 
一 个 好 习惯 。 


2.5 ”探索 和 理解 数据 


在 收集 数据 并 且 把 它们 加 载 到 R 数据 结构 以 后 ， 机 器 学 习 的 下 一 个 步骤 是 仔细 检查 数 
据 。 在 这 个 步骤 里 ， 你 将 开始 探索 数据 的 特征 和 案例 ， 并 且 找 到 数据 的 独特 之 处 。 你 对 数据 
的 理解 越 深 刻 ， 你 将 会 更 好 地 让 机 器 学 习 模 型 匹配 你 的 学 习 问 题 。 

理解 数据 探索 的 最 好 方法 就 是 通过 实例 。 在 本 节 中 ， 我 们 将 探索 usedcars .csv 数据 
集 ， 其 中 包含 在 流行 的 美国 网 站 上 最 近 发 布 的 关于 二 手 车 打折 销售 广告 的 真实 数据 。 


~ usedcars.csv 数据 集 能 在 Packt 网 站 下 载 。 如 果 你 要 和 例子 一 起 操作 ， 
要 确保 这 个 文件 下 载 并 且 保 存在 你 的 及 工作 目录 里 。 


因为 数据 集 存储 为 CSV 形式 ， 所 以 我 们 能 用 *ead.csv() 函数 把 数据 加 载 到 R 数据 
框 中 : 

Usedcars <- read.csv(l"usedcars.csv'", stringsAsFactors = FALSE) 

有 了 usedcars 数据 框 ， 现 在 我 们 将 担任 数据 科学 家 的 角色 ， 任 务 是 理解 二 手 车 数 
据 。 尽 管 数据 探索 是 一 个 不 确定 的 过 程 ， 但 可 以 把 这 个 步骤 想象 成 一 个 调查 过 程 ， 在 这 个 
步骤 里 回答 关于 数据 的 问题 。 有 具体 的 问题 可 能 会 因 任务 的 不 同 有 所 变化 ， 但 是 问题 的 类 型 
一 般 是 相似 的 。 不 管 数据 集 的 大 小 ， 你 应 该 能 把 这 个 调查 的 基本 步骤 应 用 到 任何 你 感 兴趣 
的 数据 集中 。 
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2.5.1 ”探索 数据 的 结构 

调查 中 第 一 个 问题 应 该 是 数据 是 怎么 组 织 的 。 如 果 你 足够 幸运 ， 数 据 源 会 提供 一 个 数据 
字典 ， 它 是 一 个 描述 数据 特征 的 文档 。 在 我 们 的 例子 里 ， 二 手 车 数据 并 不 包含 这 个 文件 ， 所 
以 我 们 需要 创建 我 们 自己 的 数据 字典 。 

函数 str () 提供 了 一 个 显示 数据 框 结构 的 方法 ， 或 者 说 它 提供 了 显示 所 有 同时 包含 向 
量 和 列表 的 数据 结构 的 方法 。 这 个 函数 可 以 用 来 创建 数据 字典 的 基本 轮廓 : 


> str(usedcars) 
'data.frame':150 obs. of 6 variables: 


$ year 2 4nt 2011 2011 2011 2021 ..: 

$ model ; Chr “SEL" "SEL" SEL" “SEL" ... 

$ price : int 21992 20995 19995 17809 ... 

$ mileage 5 i ‘7413 10926 7351 11613 ..; 

$ color : Chr Yellow" "Gray" Siler Grayr ,ss 


$ transmission: chr "AUTO" "AUTO" "AUTO" "AUTO" ... 

对 于 这 样 一 条 简单 的 命令 ， 我 们 就 知道 了 关于 数据 集 的 大 量 信息 。 语 句 150 obs 告诉 
我 们 数据 一 共 包含 150 个 观测 值 或 者 案例 。 观 测 值 的 数量 一 般 简 写 为 x。 因为 我 们 知道 数据 
描述 的 是 二 手 车 ， 所 以 现在 可 以 认为 供销 售 的 车 有 n=150 辆 。 

语句 6 variables 指 的 是 数据 中 记录 了 6 个 特征 。 这 些 特征 根据 名 字 排 列 成 独立 的 
行 。 查 看 特征 color 所 在 的 那 一 行 ， 我 们 注意 到 一 些 额外 的 信息 : 

人 Color : Chr "Yellow" "Gray" "Silver" "Gray" ... 


在 变量 名 的 后 面 ，chz 告诉 我 们 这 个 特征 是 字符 型 的 。 在 这 个 数据 集中 ，3 个 变量 是 字 
符 型 ， 另 外 3 个 注 明 是 int ， 表 明 是 整数 型 。 尽 管 这 个 数据 集 仅 包含 整数 型 和 字符 型 ， 但 
当 使 用 非 整 数 型 数据 时 ， 你 还 可 能 会 磁 到 数值 型 num (例如 ， 含 有 小 数 点 的 数字 )。 所 有 因 
子 都 会 列 为 Factor 型 。 在 每 个 变量 类 型 的 后 面 ，R 给 出 这 个 特征 的 最 前 面 的 几 个 值 。 值 
"Yellow"、"Gray"、"Silver" 和 "Gray" 是 color 特征 的 前 4 个 值 。 

根据 相关 领域 知识 ， 特 征 名 称 和 特征 值 可 以 使 我 们 对 变量 所 代表 的 含义 做 出 假定 。 变 量 
year 可 能 指 汽车 制造 的 时 间 ， 也 可 能 指 汽 车 广告 贴 出 的 时 间 。 接 下 来 我 们 将 更 加 仔细 地 调查 
这 个 特征 ， 因 为 它 的 4 个 案例 值 (2011，2011，2011，2011) 适用 于 上 述 任何 一 个 可 能 性 。 
变量 model . price mileage、color 和 transmission 极 有 可 能 指 的 是 销售 汽车 的 特征 。 

尽管 数据 似乎 被 赋予 了 有 内 在 含义 的 变量 名 ， 但 实际 应 用 中 并 不 是 所 有 的 数据 都 是 这 样 
的 。 有 时 候 ， 数 据 集 的 特征 可 能 是 没有 具体 含义 的 名 字 、 代 号 或 者 像 V1 这 样 的 简单 数字 。 
通过 进一步 调查 ， 从 而 确定 特征 名 称 确切 代表 的 含义 是 必 不 可 少 的 。 然 而 ， 即 使 特征 名 称 有 
具体 的 意义 ， 也 要 谨慎 检查 提供 给 你 的 标签 含义 的 正确 性 。 我 们 继续 进行 下 面 的 分 析 。 


2.5.2 ”探索 数值 型 变量 


为 了 调查 二 手 车 数据 中 的 数值 型 变量 ,我 们 将 使 用 一 组 普遍 使 用 的 描述 数值 的 指标 ， 它 
们 称 为 汇总 统计 量 。summary () 函数 给 出 了 几 个 常用 的 汇总 统计 量 。 我 们 看 看 二 手 车 数据 
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中 的 year 特征 : 


> summary (usedcars$year) 
Min. lst Qu. Median Mean 3rd Qu. Max. 
2000 2008 2009 2009 2010 2012 


即使 你 对 汇总 统计 量 不 熟悉 ， 你 也 能 从 summary () 函数 输出 结果 的 标题 中 猜 出 一 
现在 先 不 管 特征 year 所 代表 的 具体 含义 ， 事 实 上 ， 当 我 们 看 到 诸如 2000、2008 以 及 
2009 这 样 的 数字 时 ， 我 们 相信 变量 year 表示 汽车 制造 的 时 间 而 不 是 汽车 广告 打出 的 时 间 ， 
因为 我 们 知道 汽车 是 最 近 才 挂 牌 出 售 的 。 

我 们 也 能 使 用 summary () 函数 同时 得 到 多 个 数值 型 变量 的 汇总 统计 量 : 

> summary (usedcars [c("Pzrice"，"mileage")]) 

Price mileage 
Min. : 3800 Min. : 4867 


lst Qu. :10995 lst Qu.: 27200 
Median :13592 Median : 36385 


Mean “12962 Mean : 44261 
3rd Qu.:14904 3zQ Qu.® 55125 
Max. :2L992 Max. :151479 


summary () 清 数 提供 的 6 个 汇总 统计 量 是 探索 数据 的 简单 但 强大 的 工具 。 汇 总 统计 量 
可 以 分 为 两 种 类 型 : 数据 的 中 心 测度 和 分 散 程度 测度 


1. 测量 中 必 


中 心 趋势 测度 是 这 样 一 ta ee 你 应 该 区 本 和 
用 的 一 个 测 
起 央 在 是 打 入 志 的 网 不 积 信 之 癌 申 区 个 性 尖 - Sn ee a 
一 个 平均 体重 不 会 是 特别 重 或 者 特别 轻 。 平 均 数 是 具有 代表 性 的 ， 它 和 组 里 的 其 他 值 不 会 差 
得 太 多 。 你 可 以 把 它 设想 成 一 个 所 有 其 他 值 用 来 进行 参照 的 值 。 

在 统计 学 中 ， 平 均 数 也 叫做 均值 ， 它 定义 为 所 有 值 的 总 和 除 以 值 的 个 数 。 例 如 ， 要 想 计 
算 收入 分 别 是 $36 000、$44 000 和 $56 000 的 3 个 人 的 平均 收入 ， 我 们 可 以 如 下 计算 : 


> (36000 + 44000 + 56000) / 3 
[1] 45333 .33 


R 也 提供 一 个 mean() 函数 ， 它 能 计算 数字 向 量 的 均值 : 


> mean(c(36000, 44000, 56000)) 
[1] 45333..33 


这 组 人 的 平均 收入 是 $45 333.33。 从 概念 上 来 说 ， 你 可 以 想象 这 个 值 是 ， 如 果 所 有 收入 
平等 分 给 每 一 个 人 时 ， 每 个 人 应 该 得 到 的 收入 。 

回忆 先前 summary () 函数 的 输出 ， 它 列 出 了 变量 price 和 mileage 的 平均 值 。price 的 
平均 值 为 12 962，mileage 的 平均 值 为 44 261， 这 表明 数据 集中 具有 代表 性 的 二 手 车 的 价 
格 应 该 标 为 $12 962， 里 程 表 的 读数 为 44 261。 这 些 告 诉 我 们 数据 的 什么 信息 呢 ? 因为 平均 
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价格 相对 偏 低 ， 所 以 可 以 预期 我 们 数据 中 包括 经 济 型 汽车 。 当 然 ， 数 据 中 也 有 可 能 包括 新 型 
的 豪华 汽车 ， 有 着 高 里 程 数 ， 但 是 相对 较 低 的 平均 里 程 数 的 统计 数据 并 不 提供 支持 这 个 假设 
的 证 据 。 另 一 方面 ， 数 据 并 没有 提供 证 据 让 我 们 忽略 这 个 可 能 性 。 所 以 ， 在 进一步 检验 数据 
时 我 们 要 留意 这 一 点 。 

尽管 到 目前 为 止 ,均值 是 最 普遍 引用 的 测量 数据 集中 心 的 统计 量 ， 但 它 不 一 定 是 最 合适 
的 。 另 一 个 普遍 使 用 检验 中 心 趋势 的 指标 是 中 位 数 ， 它 位 于 排序 后 值 列 表 的 中 间 。 和 均值 一 
样 ，R 提供 了 函数 median() 来 获得 这 个 值 ， 可 以 把 它 应 用 到 工资 数据 中 ， 如 下 所 示 : 


> median(c(36000，44000，56000) ) 
[1] 44000 


因为 中 间 值 是 44 000， 所 以 收入 的 中 位 数 是 $44 000。 


、_ ”如 果 数 据 集 有 偶数 个 数值 ， 就 没有 最 中 间 值 。 在 这 种 情况 下 ， 一 般 是 计算 按 顺 
1 序 排列 的 数值 列表 最 中 间 的 两 个 数值 的 平均 值 作为 中 位 数 。 例 如 ，1、2、3、4 
的 中 位 数 是 2.5 


乍 一 看 ， 好 像 中 位 数 和 均值 是 很 类 似 的 度量 。 肯 定 的 是 ,均值 $45 333.33 和 中 位 数 $44 000 
并 没有 太 大 区 别 。 为 什么 会 有 这 两 种 中 心 趋势 呢 ? 这 是 由 于 落 在 值 域 两 端的 值 对 均值 和 中 位 
数 的 影响 是 不 同 的 。 尤 其 是 均值 ， 它 对 异常 值 ， 或 者 那些 对 大 多 数 数 据 而 言 异 常 高 或 低 的 
值 ， 是 非常 敏感 的 。 因 为 均值 对 异常 值 是 非常 敏感 的 ， 所 以 它 很 容易 受到 那 一 小 部 分 极端 值 
的 影响 而 改变 大 小 。 

再 回忆 summary () 也 数 输出 的 二 手 车 数据 集 的 中 位 数 。 尽 管 price 的 均值 和 中 位 数 
非常 相似 (相差 大 约 5%), 但 mileage 的 均值 和 中 位 数 的 不 同 就 非常 大 了 。 对 于 mileage 
来 说 , 均值 44 261 比 中 位 数 36 385 大 了 超过 20%。 因 为 均值 比 中 位 数 对 极端 值 更 敏感 ， 所 以 
均值 比 中 位 数 大 很 多 这 个 事实 ， 令 我 们 怀疑 数据 集中 的 一 些 二 手 车 有 极 高 的 mileage 值 。 
为 了 进一步 调查 这 一 点 ， 我 们 需要 在 分 析 中 应 用 一 些 额外 的 汇总 统计 量 。 


2. 测量 数据 分 散 程度 一 一 四 分 位 数 和 五 数 汇总 


测量 数据 的 均值 和 中 位 数 给 我 们 一 个 迅速 概括 数据 的 方法 ， 但 是 这 些 中 心 测 度 在 数值 的 
大 小 是 否 具有 和 多样 性 方面 给 我 们 提供 了 很 少 的 信息 。 为 了 测量 这 种 多 样 性 ， 我 们 需要 应 用 男 
一 种 汇总 统计 量 ， 它 们 是 与 数据 的 分 散 程 度 相 关 的 ,或 者 说 它们 是 与 数据 之 间 “ 空 阶 ” 的 紧 
密 或 者 松弛 有 关系 的 。 知 道 了 数据 之 间 的 差异 ， 就 对 数据 的 最 大 值 和 最 小 值 有 了 了 解 ， 同 时 
也 会 对 大 多 值 是 否 接近 均值 和 中 位 数 有 了 解 。 

五 数 汇总 是 一 组 5 个 统计 量 ， 它 们 大 致 地 描述 一 个 数据 集 的 差异 。 所 有 的 5 个 统计 量 包 
含 在 函数 summary() 的 输出 结果 中 。 按 顺序 排列 ， 它 们 是 : 

口 最 小 值 (Min. )。 

口 第 一 四 分 位 数 ,或 者 Q1 (1st Qu. )。 

口 中 位 数 ， 或 Q2 (Median)。 
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口 第 三 四 分 位 数 , 或 Q3 (3rd Qu.)。 

口 最 大 值 (Max. )。 

就 像 你 预期 的 那样 ， 最 小 值 和 最 大 值 是 数据 集 里 能 发 现 的 最 极端 的 两 个 值 ， 分 别 表示 数 
据 的 最 小 值 和 最 大 值 。R 提供 了 函数 min () 和 函数 max() 来 分 别 计算 数据 向 量 中 的 最 小 值 
和 最 大 值 。 

最 小 值 和 最 大 值 的 差 值 称 为 值 域 。 在 R 中 ,zange() 函数 同时 返回 最 小 值 和 最 大 值 。 
把 range () 函数 和 差 值 函数 aiff () 相 结合 ， 这 样 你 能 够 用 一 条 命令 来 检验 数据 的 值 域 ; 


> range (usedcars$price) 

[1] 3800 21992 

> diff (range (usedcars$price)) 
[1] 18192 


第 一 四 分 位 数 和 第 三 四 分 位 数 ( 即 Q1 和 Q3 ) 指 的 是 有 1/4 的 值 小 于 Q1 和 有 1/4 的 值 大 
于 Q3。 它 们 和 中 位 数 (Q2 ) 一 起 ，3 个 四 分 位 数 把 一 个 数据 集 分 成 4 部 分 ， 每 一 部 分 都 有 相 
同 数量 的 值 。 
四 分 位 数 是 分 位 数 的 一 种 特殊 类 型 ， 分 位 数 把 数据 分 为 相等 数量 的 数值 。 除 
了 四 分 位 数 外 ， 普 遍 使 用 的 分 位 数 包括 三 分 位 数 (分 成 3 部 分 )、 五 分 位 数 
(分 成 5 部 分 )、 十 分 位 数 (分 成 10 部 分 ) 和 百 分 位 数 (分 成 100 部 分 )。 百 
分 位 数 通常 用 来 给 数据 进行 等 级 评定 。 例 如 ， 一 个 学 生 的 考试 成 绩 排 列 在 百 
分 位 数 的 第 99 分 位 数 ， 说 明 他 表现 得 比 其 他 99% 的 测试 者 都 要 好 。 


~ 


我 们 对 Ql1 和 Q3 之 间 的 50% 的 数据 特别 感 兴趣 ， 因 为 它们 就 是 数据 分 散 程度 的 一 个 测 
度 。Q1 和 Q3 之 间 的 差 称 为 四 分 位 距 ( Inter Quartile Range，IQR)， 可 以 用 函数 IQRO 来 计算 ， 
例如 : 


> IQR(usedcars$price) 
[1] 3909.5 


我 们 也 能 从 summary () 输出 的 usedcars$price 变量 的 结果 来 手工 计算 这 个 值 ， 即 
计算 14 904-10 995=3909。 我 们 计算 的 值 与 TQR () 输出 结果 之 间 有 差别 ， 这 是 因为 R 自动 
对 summary () 输出 结果 进行 四 含 五 人 。 

quantile() 函数 提供 了 稳健 的 工具 来 给 出 一 组 值 的 分 位 数 。 默 认 情 况 下 ，quantile() 
函数 返回 五 数 汇总 的 值 。 把 这 个 函数 应 用 到 二 手 车 数据 中 ， 将 会 产生 和 前 面 一 样 的 统计 量 : 


> quantile (usedcarsSprice) 
0% 25% 50% 75% 100% 
3800.0 10995.0 13591.5 14904.5 21992.0 
当 计 算 分 位 数 时 ， 有 很 多 种 方法 处 理 并 排 数 值 和 处 理 没有 中 间 值 的 数据 集 。 
~ 通过 指定 类 型 参数 ，quantile () 函数 能 够 在 9 个 不 同 算法 之 间 选 择 计 算 分 
a 位 数 的 方法 。 如 果 你 的 项 目 要 求 一 个 明确 精度 的 分 位 数 ， 使 用 ?quantile 
命令 来 阅读 该 函数 的 帮助 文件 是 很 重要 的 。 
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如 果 我 们 指定 另 一 个 probs 参数 ， 它 用 一 个 向 量 来 表示 分 割 点 ， 我 们 能 得 到 任意 的 分 
位 数 ， 比 如 第 1 和 第 99 的 百 分 位 数 可 以 按 如 下 方式 求 得 : 


> quantile (usedcars$price, probs = c(0.01, 0.99)) 
1% 99% 
5428.69 20505.00 


序列 函数 seq () 用 来 产生 间距 大 小 相同 的 向 量 。 这 个 函数 使 得 获得 其 他 分 位 数 变 得 很 
容易 ， 比 如 要 想 输出 五 分 位 数 (5 个 组 )， 如 下 所 示 : 


> quantile (usedcars$price, seqlfrom = 0, to = 1, by = 0.20)) 
0% 20% 40% 60% 80% 100% 
3800-0 10759.4 12993.8 13992.0 14999.0 21992.0 


由 于 理解 了 五 数 汇总 ， 所 以 我 们 重新 检查 对 二 手 车 数据 应 用 函数 summary () 的 输出 结 
果 。 对 变量 price， 最 小 值 是 $3800、 最 大 值 是 $21 992。 有 趣 的 是 ， 最 小 值 和 Q1 之 间 的 差 
是 $7000， 和 Q3 与 最 大 值 的 差 一 样 。 然 而 ，Q1 和 中 位 数 的 差 ， 以 及 中 位 数 和 Q3 的 差 大 约 
是 $2000。 这 就 表明 上 、 下 25% 的 值 的 分 布 比 中 间 50% 的 值 更 分 散 ， 似 乎 中 心 周围 的 值 聚 
集 得 更 加 紧密 。 没 有 意外 的 是 ， 我 们 从 变量 mileage 也 看 到 了 相似 的 趋势 。 你 在 本 章 后 面 
将 会 学 到 ， 这 个 差异 的 模式 非常 普遍 ， 此 时 称 数 据 为 正 态 分 布 。 

mileage 变量 的 分 散 程度 同时 也 表现 了 另 一 个 有 趣 的 性 质 : Q3 和 最 大 值 之 间 的 差异 远 
大 于 最 小 值 和 Q1 之 间 的 差异 。 换 句 话说 ， 较 大 的 值 比较 小 的 值 更 加 分 散 。 

这 个 发 现 解释 了 均值 远大 于 中 位 数 的 原因 。 当 中 位 数 相 对 在 同一 位 置 时 ， 因 为 均值 对 极 
端 值 更 敏感 ， 所 以 均值 会 被 极端 大 的 值 拉 高 。 这 是 一 个 很 重要 的 性 质 ， 当 数据 直观 呈现 出 来 
时 就 更 显而易见 。 


3. 数值 型 变量 可 视 化 一 一 箱 图 


可 视 化 数值 型 变量 对 数据 中 很 多 问题 的 诊断 都 是 有 帮助 的 。 一 种 对 五 数 汇总 的 常用 可 视 
化 方式 是 箱 图 。 箱 图 以 一 种 特定 方式 显示 数值 型 变量 的 中 心 和 分 散 程度 ， 这 种 方式 使 你 能 很 
快 了 解 变 量 的 值 域 和 偏 度 ， 或 者 它 还 可 以 和 其 他 变量 做 比较 。 

下 面 观察 二 手 车 数据 的 变量 price 和 变量 mileage 的 箱 图 。 要 想得到 一 个 变量 的 箱 
图 ， 可 以 使 用 函数 boxplot () 。 我 们 也 将 指定 一 些 其 他 参数 一 一 main 和 ylab， 它 们 分 别 
为 图 形 加 一 个 标题 和 标注 图 形 的 y 轴 ( 即 竖 轴 )。 创 建 变量 price 和 变量 mileage 箱 图 的 
命令 是 : 

> boxplot (usedcars$price, main='"Boxplot of Used Car Prices", 

ylab="Price ($)") 


> boxplot (usedcars$mileage, main="Boxplot of Used Car Mileage'", 
ylab="Odometer (mi.)") 


R 将 产生 下 面 的 图 形 : 
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Boxplot of Used Car Prices Boxplot of Used Car Mileage 
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箱 图 用 水 平 线 来 表示 五 数 汇总 的 值 。 每 个 图 中 ， 构 成 每 个 盒子 的 中 间 水 平 线 从 下 向 上 ， 
依次 代表 Q1、Q2 (中 位 数 ) 和 Q3。 中 位 数 用 粗 黑 线 表示 ， 对 变量 price 而 言 ， 这 条 线 在 
坚 轴 上 的 纵 坐 标 是 $13 592; 对 变量 mileage， 这 条 线 的 纵 坐 标 是 36 385。 


像 上 面 图 形 所 示 的 简单 箱 图 中 ， 箱 图 的 宽度 是 随意 的 ， 它 不 能 说 明 任何 数据 
| 的 特征 。 为 了 满足 更 加 复杂 分 析 的 需要 ， 通 过 用 盒子 的 形状 和 尺寸 ， 对 多 
QQ 组 数据 进行 比较 是 可 能 的 。 要 想 知道 更 多 关于 箱 图 的 这 种 特征 的 信息 ， 可 以 
通过 ?boxplot 命令 ， 查 询 R 中 boxplot() 文件 的 帮助 文件 的 notch 和 
varwidth 选项 。 


最 小 值 和 最 大 值 是 用 细 线 ( whisker) 来 表示 的 ， 就 是 在 盒子 下 面 和 上 面 的 细 线 。 然 而 ， 
通常 仅 允 许 细 线 延伸 到 最 小 为 低 于 Q1 的 1.5 倍 IQR 的 最 小 值 ， 或 者 延伸 到 最 大 为 高 于 Q3 
的 1.5 倍 IQR 的 最 大 值 。 任 何 超出 这 个 临界 值 的 值 都 认为 是 异常 值 ， 并 且 用 圆圈 或 者 点 来 表 
示 。 例 如 ， 变 量 price 的 IQR 是 3909, Ql 是 10 995，Q3 是 14 904。 因 此 异常 值 是 任 
何 小 于 10 995-1.5 x 3909=5131.5 或 者 大 于 14 904+1.5 x 3909=20 767.5 的 值 。 

箱 图 在 高 端 和 低 端 都 会 出 现 这 类 异常 值 。 在 mileage 的 箱 图 中 ,在 低 端 没有 这 样 的 异 
常 值 ， 所 以 底部 的 细 线 延伸 到 最 小 值 4867。 在 高 端 ， 我们 看 到 了 几 个 比 100 000 英里 大 的 异 
常 值 。 那 些 异 常 值 就 可 以 解释 我 们 前 面 探索 中 所 发 现 的 问题 ， 即 解释 了 均值 远大 于 中 位 数 。 


4. 数值 型 变量 可 视 化 一 一 直方 图 

直方 图 ( histogram) 是 另 一 种 形象 化 描述 数值 型 变量 间 差 异 的 方式 。 它 和 箱 图 相似 的 地 
方 在 于 ， 它 也 把 变量 值 按照 预先 设 定 的 份 数 进 行 分 隔 ， 或 者 说 按照 预先 定义 的 容纳 变量 值 的 
分 段 进 行 分 隔 。 箱 图 把 数据 分 成 4 部 分 ， 且 每 部 分 必须 包含 相同 数量 的 值 ， 根 据 需要 分 段 也 
可 以 变 宽 或 变 窗 。 相 反 ， 直 方 图 可 以 有 相同 宽度 的 任意 数量 的 分 段 ， 但 是 分 段 可 以 包含 不 同 
数量 的 值 。 

可 以 用 也 数 hist () 为 二 手 车 数据 的 变量 price 和 mileage 绘制 直方 图 。 就 像 我 们 
绘制 箱 图 时 那样 ， 可 以 用 参数 main 来 指定 图 形 的 标题 ， 用 参数 xlab 给 出 标记 x 轴 。 绘 制 
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直方 图 的 命令 如 下 : 
> hist(usedcars$price, main = "Histogram of Used Car Prices", 
xlab = "Price ($)") 
> hist (usedcars$mileage, main = "Histogram of Used Car Mileage", 
xlab = "Odometer (mi.)") 
产生 的 直方 网 如 下 图 所 示 。 
Histogram of Used Car Prices Histogram of Used Car Mileage 
8 民 
一 
© 0 
寸 
品 
> 己 > 
oO 全 忆 
5 5 3 
3 3 
上 8 由 号 
一 
qq 
be 
全 
So [= 
| i 
5000 10000 15000 20000 0 50000 100000 150000 
Price($) Odometer(mi.) 


直方 图 是 由 一 系列 的 竖 条 组 成 ， 其 高 度 表 示 落 在 等 长 的 划分 数据 值 的 分 段 内 的 数据 值 
的 个 数 或 频率 。 分割 每 一 个 竖 条 的 垂 线 ， 就 像 横 坐 标的 标签 一 样 ， 表 明 分 段 内 值 的 起 始点 
和 终点 。 

例如 ， 在 变量 price 的 直方 图 上 ， 10 个 竖 条 中 的 每 一 个 都 表示 范围 为 $2000 的 分 段 ， 
这 些 分 段 的 范围 是 从 $2000 开始 ， 到 $14 000 结束 。 直 方 图 中 间 最 高 的 竖 条 代表 的 分 段 范 围 
为 $12 000 ~ $14 000， 频 率 是 50。 因 为 我 们 知道 数据 中 有 150 辆 汽车 ， 其 中 1/3 汽车 的 价格 
是 在 $12 000 ~ $14 000 之 间 。 接近 90 辆 汽车 (超过 一 半 )， 报 价 在 $12 000 ~ $16 000 之 间 。 

变量 mileage 的 直方 图 包括 8 个 竖 条 ， 它 表明 每 个 分 段 长 度 都 是 20 000 英里 ， 值 域 从 
0 开始 ， 到 160 000 英里 结束 。 与 变量 price 的 直方 图 不 一 样 的 是 ， 在 变量 mileage 的 直方 
图 中 最 高 的 竖 条 不 在 数据 的 中 心 ， 而 是 在 直方 图 的 左 侧 。 这 个 最 高 竖 条 所 在 的 分 段 中 有 70 
辆 车 ， 里 程 表 的 范围 从 20 000 ~ 40 000 英里 。 

你 可 能 也 注意 到 了 两 个 直方 图 的 形状 有 一 点 不 同 。 似 乎 二 手 车 price 的 图 形 趋 向 于 平均 
分 布 在 中 心 的 两 人 出， 而 汽车 mileage 的 图 形 则 偏 到 了 左 侧 。 这 个 性 质 称 为 偏 度 ( skew)， 有 具体 
来 说 是 右 偏 ， 因 为 高 端的 值 ( 右 侧 ) 和 低 端 的 值 ( 右 侧 ) 相 比 更 加 分 散 。 如 下 图 所 示 ， 偏 余数 
据 的 直方 图 看 上 去 偏 到 了 一 边 。 

能 在 数据 中 快速 诊断 出 这 类 模式 是 直方 图 作为 数据 探索 工具 的 优点 之 一 。 在 我 们 检验 其 
他 数值 型 数据 模型 的 模式 时 ， 这 个 优点 将 更 为 重要 。 
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右 偏 


5. 了 解数 值 型 数据 一 一 均匀 分 布 和 正 态 分 布 

描述 数据 的 中 心 和 分 散 程度 的 直方 图 、 箱 图 和 统计 量 都 提供 了 检验 变量 分 布 的 方法 。 变 
量 的 分 布 描述 了 一 个 值 落 在 不 同 值 域 里 的 可 能 性 大 小 ， 

如 果 所 有 值 都 是 等 可 能 发 生 ， 这 个 分 布 就 称 为 均匀 分 布 ， 例 如 ， 记 录 投 掷 一 个 均匀 的 六 
边 形 骨 子 所 得 结果 的 数据 集 。 容 易 用 直方 图 来 探测 出 一 个 均匀 分 布 ， 因 为 其 直方 图 的 竖 条 大 
致 有 一 样 的 高 度 ， 当 用 直方 图 来 可 视 化 数据 时 ， 它 可 能 如 左下 图 所 示 

要 注意 的 重要 一 点 是 ,并非 所 有 的 随机 事件 都 服从 均匀 分 布 。 例 如 ， 掷 一 个 六 边 重 量 
不 同 的 魔术 嚼 子 ， 将 使 得 一 些 数字 发 生 的 概率 比 其 他 的 大 。 每 一 次 掷 货 子 会 产生 一 个 随机 数 
字 ,， 但 6 个 数字 出 现 的 概率 不 相等 

例如 ， 下 面 回 到 前 面 的 二 手 车 数据 。 很 明显 这 个 数据 不 是 均匀 分 布 的 ， 因 为 有 些 值 明显 
比 其 他 值 发生 的 可 能 性 更 大 。 事实 上 ， 在 变量 price 的 直方 图 上 ， 可 以 看 出 中 心 值 两 边 的 值 ， 
偏离 中 心 越 远 ， 发 生 的 频率 就 越 小 ， 这 就 是 一 个 钟 形 的 数据 分 布 。 这 个 特征 在 现实 世界 的 数据 
中 非常 普遍 ， 它 成 为 所 谓 的 正 态 分 布 的 标志 性 特征 。 钟 形 曲线 的 典型 形状 如 右 下 图 所 示 。 











Er 上 wm 
尽管 有 许多 非 正 态 分 布 的 类 型 ， 但 许多 现象 产生 的 数据 都 可 以 用 正 态 分 布 来 描述 。 因 
此 ， 正 态 分 布 的 性 质 已 被 研究 得 很 透彻 了 。 


6. 衡量 数据 的 分 散 程 度 一 一 方差 和 标准 差 

分 布 使 我 们 能 够 用 少量 的 参数 来 描述 大 量 值 的 特性 。 用 来 描述 现实 生活 中 大 量 数据 的 正 
态 分 布 ， 可 以 用 两 个 参数 来 定义 : 中 心 和 分 散 程度 。 正 态 分 布 的 中 心 可 以 用 均值 来 定义 ， 正 
如 我 们 在 前 面 使 用 的 那样 。 分 散 程度 通过 一 种 称 为 标准 差 的 统计 量 来 测量 。 

为 了 计算 标准 差 ， 我 们 必须 先 获 得 方差 ， 它 定义 为 每 一 个 值 与 均值 之 间 的 平方 差 的 均 
值 。 用 数学 符号 表示 ， 一 组 具有 个 值 的 变量 x 的 方差 可 以 通过 下 面 的 公式 定义 。 希 腊 字母 
4 表示 值 的 均值 ， 方 差 用 希腊 字母 o 的 平方 来 表示 : 


Var(X¥)=0o” Sg 一 /人 
n ji 
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标准 差 就 是 方差 的 平方 根 ， 用 o 来 表示 ， 如 下 所 未 : 


StdDev(X) =0o = py (x -4) 
i=1 


要 想 在 R 中 获得 方差 和 标准 差 ， 可 以 应 用 函数 var () 和 函数 sd () 。 例 如 ,计算 变量 
price 与 变量 mileage 的 方差 与 标准 差 ， 如 下 所 示 : 


> var (usedcarss$price) 
[i] 9749892 

> sd(usedcars$price) 
[1] 3122.482 

> Vvar (usedcarss$mileage) 
[1] 728033954 

> sd(usedcarssmileage) 
[1] 26982.1 


当 我 们 解释 方差 的 时 候 ， 方差 越 大 表示 数据 在 均值 周围 越 分 散 。 标 准 差 表 示 平 均 来 看 每 
个 值 和 均值 相差 多 少 。 
如 果 你 用 上 面 的 公式 手工 来 计算 这 些 统计 量 ， 你 得 出 的 结果 将 会 与 民 的 内 
~ 少 、 置 函数 得 出 的 结果 略 有 不 同 。 这 是 因为 上 面 的 公式 给 出 的 是 总 体 方差 ( 除 以 
ea Nn)， 而 民 内 置 函数 用 的 是 样本 方差 ( 除 以 n-1 )。 除 非 数 据 集 很 小 ， 否 则 这 
两 种 结果 的 区 别 是 很 小 的 。 


在 假设 数据 服从 正 态 分 布 的 条 件 下 ， 标 准 差 能 用 来 快速 地 估计 出 一 个 给 定 值 有 多 大 程度 
的 偏 大 或 者 偏 小 。68-95-99.7 规则 说 明正 态 分 布 中 68% 的 值 落 在 均值 左右 1 个 标准 差 的 范 
有 围 内 ， 而 95% 和 99.7% 的 值 各 自 落 在 均值 左右 2 个 和 3 个 标准 差 的 范围 内 。 这 个 规则 可 以 
由 下 图 来 说 明 。 

把 这 个 知识 应 用 到 二 手 车 数据 中 ， 我 们 知道 变量 price 的 均值 是 $12 962， 所 以 该 数据 中 大 
约 有 68% 的 车 的 价格 在 $9840 ~ $16804 之 间 。 尽 管 68-95-99.7 规则 仅仅 局 限于 正 态 分 布 中 ,但 
是 这 个 基本 准则 能 应 用 到 所 有 的 数据 中 ， 数 值 落 在 均值 的 3 个 标准 差 以 外 是 极端 罕见 的 事件 。 








2.5.3 ”探索 分 类 变量 
如 果 你 回忆 一 下 ， 你 会 发 现 二 手 车 数据 集 有 3 个 分 类 变量 : model、color 和 transmission。 
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因为 在 加 载 数据 时 ， 我 们 用 到 了 stringsAsFactors = FALSE 参数 ,所 以 R 把 它们 作 
为 字符 型 (chr) 变量 而 不 是 自动 把 它们 转化 成 因子 . 此 外 ,我 们 可 能 考虑 把 year 看 作 分 
类 变量 。 尽 管 它 是 数值 型 (int) 的 ,但 是 每 一 个 year 值 是 一 个 类 别 ， 该 类 别 可 以 应 用 到 
多 辆 汽车 上 。 

与 数值 型 数据 相 比 ， 分 类 数据 是 用 表格 而 不 是 汇总 统计 量 来 进行 检测 的 。 表 示 单 个 分 类 
变量 的 表格 称 为 一 元 表 。 函 数 table () 能 用 来 产生 二 手 车 数据 的 一 元 表 : 


> table (usedcars$year) 
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 


3 1 1 1 3 2 6 汪汪 14 42 49 16 三 
> table (usedcarss$model) 
SE SEL SES 
78 23 49 


> table (usedcars$color) 
Black Blue Gold Gray Green Red Silver White Yellow 
35 7 1 16 5 25 32 16 3 


输出 的 表格 结果 列 出 了 名 义 变量 的 不 同类 别 和 该 类 别 的 值 的 数量 。 由 于 我 们 知道 数据 集 
一 共有 150 个 二 手 车 数据 ， 所 以 我 们 能 确定 其 中 大 约 有 1/3 是 在 2010 年 制造 的 ， 因 为 49/150 
大 约 是 33%。 

R 同时 也 能 在 table () 函数 产生 的 表格 上 直接 应 用 因数 prop .table () ， 计 算 表 格 
中 格子 的 比例 ， 如 下 所 示 : 


> model table <- table(usedcarsS$Smodel) 
> Prop .table(mode1l_table) 

SE SEL SES 
0.5200000 0.1533333 0.3266667 


型 号 为 SE 的 汽车 的 比例 是 0.520 000 0， 所 以 有 52% 的 汽车 是 SE 这 种 车 型 。 

函数 prop .table() 的 结果 能 与 其 他 R 天 数 相 结合 来 转换 输出 的 结果 。 假 设 我 们 想 要 
把 结果 用 保留 一 位 小 数 的 百分数 来 表示 ， 就 可 以 把 各 个 比例 值 乘 以 100， 再 用 round () 函 
数 并 且 指定 digits = 1 来 实现 ， 如 下 所 示 : 


> color table <- table(usedcars$color) 

> color pct <- prop.table(color table) * 100 

> round(color pct, digits = 1) 

Black Blue Gold Gray Green Red Silver White Yellow 
沁 各 E13 9 10.7 区 党 16.7 21.3 10.7 人 


尽管 它 包含 的 信息 和 prop .table() 因数 默认 的 输出 结果 一 样 ， 但 是 相对 来 说 这 样 更 
容易 阅读 。 结 果 显 示 black 是 最 普遍 的 颜色 ， 因 为 广告 列 出 的 所 有 汽车 中 将 近 有 1/4 ( 23.3%) 
是 black 的 。silver 与 之 接近 ， 排 在 第 二 位 ， 有 21.3%; red 是 第 三 ， 有 16.7%。 

衡量 中 心 趋势 一 一 众 数 

在 统计 术语 中 ， 一 个 特征 ( 即 变量 ) 的 众 数 是 指出 现 最 频繁 的 那个 值 。 与 均值 和 中 位 数 
一 样 ， 众 数 是 男 一 个 测量 中 心 趋势 的 统计 量 。 它 通常 应 用 在 分 类 数据 中 ， 因 为 均值 和 中 位 数 
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并 不 是 为 名 义 变量 定义 的 。 

例如 ， 在 二 手 车 数据 中 ，year 变量 的 众 数 是 2010， 而 model 和 color 的 众 数 分 别 
为 SE 和 Black。 一 个 变量 可 能 有 多 个 众 数 ; 只 有 一 个 众 数 的 变量 是 单 峰 的 ， 有 两 个 众 数 的 
变量 为 双 峰 的 。 有 多 个 众 数 的 数据 通常 称 为 多 峰 的 。 
尽管 你 可 能 猜测 能 用 mode () 函数 得 到 众 数 ， 但 是 R 却 是 用 这 个 函数 来 得 出 
变量 的 类 型 (如 数值 型 ， 列 表 等 )， 而 不 是 统计 量 众 数 。 相 反 ， 为 了 找到 统计 
量 众 数 ， 只 需要 查看 表格 输出 结果 中 具有 最 大 值 的 类 别 即 可 。 


、 


by 


众 数 是 从 定性 角度 来 了 解数 据 集 中 的 重要 值 。 然 而 ， 太 关注 众 数 有 可 能 很 危险 ， 因 为 最 
常见 的 值 并 不 一 定 就 是 绝 大 多 数 。 例 如 ， 尽 管 Black 是 二 手 车 变量 color 的 众 数 ,但 是 
Black 仅 占 所 有 列 出 汽车 的 1/4。 

考虑 众 数 时 最 好 把 它 和 其 他 的 类 别 联系 起 来 。 是 否 有 一 个 类 别 占 主导 地 位 ， 或 者 多 个 
类 别 占 主导 地 位 ? 据 此 ， 我 们 可 能 会 问 : 最 常见 的 值 告诉 我 们 被 测量 变量 的 哪些 信息 。 如 果 
Black 和 Silver 是 最 普遍 使 用 的 二 手 车 颜色 ， 那 么 我 们 可 以 假设 数据 是 从 奢华 汽车 中 得 来 的 ， 
这 类 汽车 趋向 于 销售 更 加 保守 的 颜色 ; 或 者 它们 也 可 能 是 经 济 型 汽车 ， 这 类 汽车 有 更 少 可 供 
选择 的 颜色 。 在 我 们 进一步 检验 这 些 数据 时 ， 我 们 要 记 住 这 些 问 题 。 | 

把 众 数 考虑 成 最 普遍 的 值 ， 这 使 得 我 们 能 够 把 统计 量 众 数 的 概念 应 用 到 数值 型 数据 。 严 
格 地 说 ， 连 续 变 量 是 不 可 能 有 众 数 的 ， 因 为 没有 两 个 值 可 能 是 重复 的 。 然 而 ， 如 果 我 们 把 众 
数 考 虑 成 直方 图 中 最 高 的 那个 紧 条 ， 就 能 够 讨论 如 变量 price 和 变量 mileage 的 众 数 。 当 
探索 数值 型 数据 时 ， 考 虑 众 数 是 很 有 帮助 的 ， 特 别 要 检验 数据 是 否 为 多 峰 的 。 


2.5.4 ”探索 变量 之 间 的 关系 

到 目前 为 止 ， 我 们 一 次 只 检验 一 个 变量 ， 只 计算 单 变 量 统计 量 。 在 我 们 的 研究 过 程 中 ， 
我 们 列举 了 当时 尚 不 能 回答 的 一 些 问题 : 

口 price 数据 有 没有 暗示 我 们 只 检验 了 经 济 类 的 汽车 ， 还 是 检验 的 数据 里 也 包括 高 里 

程 的 奢华 汽车 呢 ? 

口 model 和 color 数据 之 间 的 关系 ， 有 没有 提供 关于 我 们 所 检验 的 汽车 类 型 的 洞察 呢 ? 

这 类 问题 能 通过 关注 二 变量 关系 ， 即 考虑 两 个 变量 之 间 的 关系 来 进行 处 理 。 超 过 两 个 变 
量 间 的 关系 称 为 多 变量 关系 。 下 面 从 二 变量 的 情况 开始 讨论 。 


1. 变量 之 间 关 系 的 可 视 化 一 一 散 点 图 


散 点 图 是 一 种 可 视 化 二 变量 之 间 关 系 的 图 形 。 它 是 一 个 两 维 的 图 形 ， 将 点 画 在 坐标 平面 
中 ， 该 坐标 平面 的 横 坐 标 x 是 其 中 一 个 特征 的 值 ， 纵 坐标 y 由 另 一 个 特征 的 值 来 标识 。 坐 标 
平面 上 点 的 排放 模式 ， 揭 示 了 两 个 特征 之 间 的 内 在 关系 。 

为 了 回答 变量 price 和 mileage 之 间 的 关系 ,下面 来 分 析 一 个 散 点 图 。 我 们 将 用 
plot () 函数 以 及 在 前 面 绘图 中 用 过 的 标记 图 形 的 参数 main、xlab 和 ylab。 
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为 了 使 用 plot () 函数 ,我们 需要 指定 x 向 量 和 y 向 量 ， 它 们 含有 给 图 形 中 的 点 定位 
的 值 。 尽 管 无 论 用 哪个 变量 来 表示 x 坐标 和 yy 坐标 ,结论 都 是 一 样 的 ， 但 是 惯例 规定 ，y 变 
量 是 假定 依赖 于 另 一 个 变量 的 变量 (因此 称 为 因 变 量 )。 因 为 里 程 表 的 读数 不 能 被 卖家 修改 ， 
所 以 它 不 可 能 由 汽车 的 价格 决定 。 相 反 ， 我们 假设 price 是 由 里 程 表 的 里 程 数 (mileage) 
决定 的 。 因 此 ， 我 们 将 把 price 作为 y， 或 者 称 因 变 量 。 

绘制 散 点 图 的 全 部 命令 如 下 : 


> plot (x = usedcars$mileage, y = usedcarss$price, 
main = "Scatterplot of Price vs. Mileage", 
xlab = "Used Car Odometer (mi.)", 
Ylab = "Used Car Price ($)") 


这 会 产生 下 面 的 散 点 图 : 


Scatterplot of Price vs.Mileage 


20000 


Used Car Price($) 





5000 10000 


0 50000 100000 150000 
Used Car Odometer(mi.) 


使 用 散 点 图 ， 我们 可 以 了 解 二 手 车 的 价格 和 里 程 表 的 读数 之 间 的 一 个 清晰 的 关系 。 为 了 
研究 这 张 图 ， 我 们 观察 当 x 轴 变 量 的 值 增加 时 ,，y 轴 变 量 的 值 是 如 何 改变 的 。 在 这 个 例子 中 ， 
当 mileage 值 逐 渐 增 加 时 ，pzrice 值 变 得 越 来 越 低 ， 它 表明 随 着 mileage 的 增加 ， 广 告 
中 列 出 的 价格 会 降低 。 如 果 你 曾经 卖 过 或 者 买 过 二 手 车 ， 这 一 点 不 难得 到 。 

一 个 更 有 趣 的 发 现 可 能 是 ， 除 了 125 000 英里 和 $14 000 所 构成 的 一 个 异常 点 以 外 ， 有 
很 少 一 部 分 汽车 同时 有 很 高 的 price 和 很 高 的 mileage。 缺 少 更 多 这 样 的 点 ， 就 提供 了 证 
据 来 支持 下 列 结论 : 数据 中 不 可 能 包含 高 里 程 的 奢华 汽车 。 数 据 中 所 有 贵 的 汽车 ， 特 别 是 那 
些 $17 500 以 上 的 汽车 ， 看 上 去 都 有 超 低 的 里 程 数 ， 这 暗示 我 们 可 能 看 到 的 是 一 类 全 新 的 卖 
价 为 $20 000 的 汽车 。 

变量 price 和 变量 mileage 之 间 的 关系 是 负 相 关 的 ， 因 为 散 点 图 是 一 条 向 下 倾斜 的 直 
线 。 正 相关 看 起 来 是 形成 一 条 向 上 倾斜 的 直线 。 一 条 水 平 的 线 , 或 者 一 个 看 上 去 随机 分 布 的 
点 集 ， 证 明 两 个 变量 完全 不 相关 。 两 个 变量 之 间 线 性 关系 的 强 弱 是 通过 统计 量 相关 系数 来 测 
量 的。 相关 系数 在 第 6 章 中 详细 讨论 ， 第 6 章 将 学 习 如 何 使 用 回归 方法 来 建立 线性 关系 。 
注意 不 是 所 有 的 关联 都 形成 直线 。 有 时 点 会 形成 一 个 器 形 或 者 V 形 ; 有 时 
关联 模式 看 上 去 随 着 x 变量 或 者 y 变量 的 增加 而 变 弱 。 这 样 的 模式 说 明 两 
个 变量 之 间 的 关系 不 是 线性 的 。 


ML 


“uw 
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2. 检验 变量 之 间 的 关系 一 一 双向 交叉 表 


为 了 检验 两 个 名 义 变量 之 间 的 关系 ， 使 用 双向 交叉 表 (two-way cross-tabulation， 也 称 为 
交叉 表 或 者 列 联 表 )。 交叉 表 和 散 点 图 相 类 似 ， 它 允许 你 观察 一 个 变量 的 值 是 如 何 随 着 男 一 
个 值 的 变化 而 变化 的 。 双 向 交叉 表 的 格式 是 : 行 是 一 个 变量 的 水 平 ， 列 是 男 一 个 变量 水 平 
每 个 表格 的 单元 格 中 的 值 用 来 表明 落 在 特定 行 、 列 的 单元 格 中 值 的 数量 . 

为 了 回答 我 们 关于 model 和 color 之 间 关 系 的 问题 ， 我 们 观察 一 个 交叉 表 。R 中 的 多 
个 也 数 都 能 生成 双向 表 ， 包 括 table () 函数 ,我 们 也 可 以 把 table () 师 数 用 在 单 向 表 中 
由 Gregory R. Warnes 创建 的 gmodels 添加 包 里 的 CrossTable () 隐 数 可 能 是 用 户 最 喜欢 用 
的 函数 ， 因 为 它 在 一 个 表格 中 出 现 了 行 、 列 和 边际 百分比 ， 省 去 了 我 们 要 自己 组 合 这 些 数据 
的 有 厅 烦 。 要 想 安 装 gmodels 添加 包 ， 输入: 

> install.packages ("gmodels'") 

在 安装 了 添加 包 后 ， 仅 需要 输入 命令 1ibrary (gmodels) 来 加 载 该 添加 包 - 在 每 次 用 
到 crossTable () 函数 时 ， 你 需要 在 R 系统 中 加 载 这 个 添加 包 

在 我 们 进一步 分 析 以 前 ， 让 我 们 通过 减少 color 变量 中 水 平 的 数量 来 简化 我 们 的 任 
务 。 这 个 变量 有 9 个 水 平 ， 但 是 我 们 并 不 是 真 的 需要 如 此 详细 。 我 们 真正 感 兴趣 的 是 汽车 的 
颜色 是 否 是 保守 的 。 为 了 这 个 目的 . 我 们 将 把 9 种 颜色 分 为 两 组 : 第 一 组 将 包括 保守 的 颜 
色 : Black、Gray、Silver 和 White ; 第 二 组 将 包括 Blue、Gold、Green、Red 和 
Yellow。 我 们 创建 一 个 二 元 指示 变量 (常常 称 为 哑 变 量 )， 根 据 我 们 的 定义 来 表示 汽车 的 颜 
色 是 否 是 保守 的 。 如 果 是 保守 的 颜色 ， 指 示 变 量 的 值 就 是 1， 和 否则 值 为 0。 


> usedcarss$conservative <- 
usedcars$color %in% c("Black'", "Gray", "Silver'", "White') 


这 里 ， 你 可 能 注意 到 一 个 新 的 命令 :“%in%” 操 作 符 ， 它 根据 左边 的 值 是 否 在 右边 的 向 
量 中 ， 为 操作 符 左边 向 量 中 的 每 一 个 值 返回 TRUE 或 者 是 FALSE。 简 单 地 说 ， 你 可 以 理解 为 
“这 辆 二 手 车 的 颜色 是 在 black 、gray 、silver 和 white 这 组 中 吗 ?” 

观察 table() 得 到 的 我 们 新 建 变量 的 输出 结果 ， 我 们 看 到 2/3 的 汽车 有 保守 的 颜色 ， 
而 1/3 的 汽车 没有 保守 的 颜色 : 


> table(usedcarsSconserVative) 
FALSE TRUE 
号 天 99 


现在 ， 让 我 们 看 看 交叉 表 中 conservative (保守 ) 颜色 汽车 的 比例 是 如 何 随 着 model 
变化 而 变化 的 。 因 为 我 们 假设 汽车 的 型 号 决定 了 颜色 的 选择 ， 所 以 我 们 把 conservative 
作为 因 变 量 (y)。czossTable () 命令 的 应 用 如 下 : 


> CrossTable (x = usedcars$model, y = usedcars$conservative) 


由 此 产生 了 下 面 的 表格 : 
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Cell Contents 


| N | 
| chi-square contribution | 
| N / Row Total | 
| N / Col Total 

| N / Table Total | 


Total observations in Table: 150 


| 
usedcars$mode] | S | UE | Row Total | 
sE | 22 | S$ ?8 | 
|] 0.009 | 0.004 | 
0.346 | 0.654 0.520 | 
0.529 | 0.515 | 
| 0.180 | 0.340 | | 
SEL | | 16 | 23 | 
| 0.086 | 0.044 
] 0. 304 0.696 | 0.153 | 
| Di37 | 0:162 | 
| 0.047 | 0.107 | 
SES 17 32 49 
| 0.007 | 0.004 
| 0.347 0.653 0.327 | 
| 0.333 | 0.323 
| 0.113 | 0.213 | 
Column Total | 51 | 99 150 | 
| 0. 340 | 0.660 | 





crossTable () 的 输出 中 包含 了 大 量 数据 。 最 上 面 的 一 张 图 (标示 为 Cell Contents) 
说 明 如 何 解 释 每 一 个 值 。 表 格 的 行 表 示 了 二 手 车 的 3 个 型 号 : SE、SEL 和 SES (再 加 上 额外 
的 一 行 用 来 表示 所 有 型 号 的 汇总 )。 表 格 的 列表 示 汽 车 的 颜色 是 否 是 保守 的 (加 上 额外 的 一 列 
对 所 有 两 种 颜色 求 和 )。 每 个 格子 中 的 第 一 个 值 表示 那个 型 号 和 那个 颜色 的 汽车 的 数量 。 比 
例 分 别 表示 这 个 格子 的 卡 方 统 计量 ， 以 及 在 行 、 列 和 整个 表格 中 占 的 比例 。 

在 表格 中 ， 我 们 最 感 兴趣 的 是 保守 颜色 汽车 占 每 一 种 型 号 的 行 比 例 。 行 比例 告诉 我 们 
0.654 (65%) 的 SE 汽车 用 保守 的 颜色 ，sEL 汽车 的 这 个 比例 是 0.696 (70%)，SEs 汽车 
是 0.653 (65%)- 这 些 数值 的 差异 相对 来 说 是 较 小 的 ， 这 暗示 不 同型 号 的 汽车 选择 的 颜色 
类 型 没有 显著 的 差异 . 

卡 方 值 指出 了 在 两 个 变量 中 每 个 单元 格 在 皮尔 森 卡 方 独立 性 检验 中 的 贡献 。 这 个 检验 
测量 了 表格 中 每 个 单元 格 内 数量 的 不 同 只 是 由 于 偶然 的 可 能 性 有 多 大 。 如果 概率 值 是 非常 低 
的 ， 那么 就 提供 了 充足 的 证 据 表明 两 个 变量 是 相关 的 。 

你 能 在 引用 crossTable () 函数 时 增加 一 个 额外 的 参数 ， 指 定 chisq = TRUE 来 获 
得 卡 方 检验 的 结果 。 在 我 们 的 案例 中 ， 概 率 值 是 93%， 暗 示 格 子 内 数量 的 变化 很 可 能 仅仅 是 
由 于 偶然 ， 而 不 是 在 model 和 color 之 间 真 的 存在 关联 . 


2.6 总 结 
在 本 章 中 ,我们 学 习 了 在 R 中 管理 数据 的 基础 。 从 深入 剖析 用 来 存储 不 同类 型 数据 的 数 
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据 结 构 开 始 。R 数据 的 基本 结构 是 向 量 ， 它 扩展 和 组 合成 更 加 复杂 的 数据 结构 ， 比 如 ， 列 表 
和 数据 框 。 数 据 框 是 与 数据 集 概 念 相 联系 的 R 数据 结构 ， 数 据 框 内 同时 有 特征 和 案例 。 

我 们 同时 也 学 习 了 如 何 从 不 同 的 数据 源 把 数据 导入 R 中 。R 提供 了 从 CSYV 文件 提取 数 
据 和 把 数据 存储 于 CSV 文件 的 函数 。SQL 数据 集 能 用 RODBC 添加 包 查 询 。 

最 后 ， 我 们 将 这 些 技能 应 用 于 包含 二 手 车 价格 的 真实 数据 集中 。 我 们 用 常用 的 中 心 趋势 
和 分 散 程度 统计 量 来 检验 数值 型 变量 ， 用 散 点 图 来 可 视 化 价格 和 里 程 表 读 数 。 我 们 用 表格 检 
验 名 义 变量 。 在 检验 二 手 车 数据 时 ， 我 们 采用 这 种 可 以 用 来 探索 所 有 数据 集 的 分 析 过 程 。 

既然 我 们 花 了 些 时 间 来 理解 R 中 数据 管理 的 基础 ， 就 已 经 准备 好 了 使 用 机 器 学 习 来 解决 
真实 世界 的 问题 。 第 三 章 ， 我 们 将 用 最 近邻 方法 着 手 处 理 我 们 的 第 一 个 分 类 任务 
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懒惰 学 习 一 一 使 用 近邻 分 类 


最 近 ， 我 阅读 了 一 篇 描述 一 种 新 型 用 餐 体 验 的 文章 ,顾客 在 一 个 完全 黑暗 的 餐厅 里 接受 
服务 ， 而 服务 员 在 仅 赁 触 党 和 听觉 记忆 的 路 上 小 心地 移动 。 这 些 餐厅 的 魅力 植 根 于 这 样 的 思 
想 : 去 掉 一 个 人 的 视觉 感官 输入 将 会 增强 他 的 味 党 和 嗅觉 ， 从 而 可 以 使 他 以 一 种 全 新 并 且 感 
到 兴奋 的 方式 来 体验 食物 。 用 和 餐 者 的 每 一 口 都 认为 是 一 个 小 小 的 冒险 ， 在 这 一 个 小 小 的 冒险 
中 ， 他 们 将 会 发 现 厨师 所 准备 的 美味 。 

你 能 够 想象 用 餐 者 是 如 何 体验 看 不 到 的 食物 吗 ? 刚 开始 可 能 会 有 一 个 数据 收集 的 短暂 阶 
段 : 突出 的 香料 、 香 味 和 口感 是 什么 ? 食物 尝 起 来 是 咸 还 是 甜 ? 利用 这 些 数据 ， 顾 客 接 下 来 
可 能 就 会 将 这 一 小 口 的 食物 与 他 之 前 的 体验 进行 对 比 ， 海 水 的 味道 可 能 会 引起 海鲜 的 印象 ， 
而 泥土 的 味道 可 能 会 与 过 去 包含 菌 类 植物 的 饭菜 联系 在 一 起 。 就 个 人 而 言 ， 我 用 一 句 稍 加 修 
改 的 谚语 来 想象 这 一 探索 过 程 : 如 果 该 食物 闻 起 来 像 只 鸭子 ， 并 且 尝 起 来 也 像 只 鸭子 ， 那 么 
你 就 很 可 能 在 吃 鸭 子 。 

这 阐述 了 一 个 可 以 用 于 机 器 学 习 思 想 一 一 就 像 另 一 名 有 关 马 类 的 格言 : 有 一 样 羽毛 的 鸟 
会 聚集 在 一 起 ( 即 “ 物 以 类 聚 ， 人 以 群 分 ” )。 换 名 话说 就 是 : 相似 的 东西 很 可 能 具有 相似 的 
属性 。 利 用 这 个 原理 ， 我 们 可 以 对 数据 进行 分 类 ， 将 其 划分 到 最 相近 的 类 别 或 者 最 接近 的 邻 
居 。 本 章 将 专门 讨论 使 用 这 种 方法 进行 分 类 ， 你 将 会 学 到 : 

口 定 义 近 邻 分 类 咒 的 关键 概念 ， 以 及 为 什么 它们 被 认为 是 “懒惰 "(lazy) 学 习 器 。 

口 通过 距离 来 测量 两 个 案例 相似 性 的 方法 。 

口 如 何 使 用 kNN (k-Nearest Neighbors，k 近邻 ) 算法 的 R 语言 实现 来 诊断 乳腺 癌 。 

如 果 所 有 这 些 关于 食物 的 话题 让 你 感到 饿 了 ， 那 么 你 可 能 想 要 吃 些 点 心 了 。 我 们 的 第 一 
个 任务 就 是 通过 对 kNN 方法 的 使 用 和 安排 一 个 持续 较 长 有 关 豪 饪 的 讨论 来 理解 kNN 方法 。 
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3.1 理解 使 用 近邻 进行 分 类 


用 一 句 话 来 说 ， 近 邻 分 类 器 就 是 把 未 标记 的 案例 归 类 为 与 它们 最 相似 的 带 有 标记 的 案例 
所 在 的 类 。 尽 管 这 个 想法 很 简单 ， 但 是 近邻 分 类 方法 是 极其 强大 的 ， 它 们 已 经 成 功 地 应 用 在 
下 列 领 域 中 : 

口 计算 机 视觉 应 用 ， 包 括 在 静止 图 像 和 视频 中 的 光学 字符 识别 和 面部 识别 。 

口 预测 一 个 人 是 否 喜 欢 推 荐 给 他 们 的 电影 (就 像 Nextfix 公司 的 比赛 )。 

口 识别 基因 数据 的 模式 ， 用 于 发 现 特定 的 蛋白 质 或 者 疾病 . 

一 般 来 说 ， 近 邻 分 类 器 非常 适用 于 这 样 的 分 类 任务 ， 其 中 的 特征 和 目标 类 之 间 的 关系 众 
多 、 复 杂 ， 用 其 他 方式 极 难 理解 ， 但 是 具有 相似 类 的 项 目 又 是 非常 近似 。 换 个 说 法 ， 也 就 是 
说 ， 如 果 一 个 概念 很 难 定义 ， 但 是 当 你 看 到 它 时 你 知道 它 是 什么 ,那么 近邻 分 类 就 可 能 是 合 
适 的 方法 。 另 一 方面 ， 如 果 组 与 组 之 间 没 有 明确 的 界限 ,那么 该 算法 总 的 来 说 不 太 适 合用 来 
确定 类 边界 。 


3.1.1 kNN 算法 
用 于 分 类 的 近邻 方法 是 通过 kNN 算法 实现 的 ， 让 我 们 来 看 一 看 该 算法 的 优 缺 点 : 





优点 缺点 
一 e@ 不 产生 模型 ， 在 发 现 特征 之 间 关 系 上 的 能 力 有 限 
. 简单 且 有 效 。 分 类 阶段 很 慢 
e 对 数据 的 分 布 没有 要 求 e 需要 大 量 的 内 存 
e 训练 阶段 很 快 e 名 义 变量 (特征 ) 和 缺失 数据 需要 额外 处 理 


kNN 算法 开始 于 一 个 分 成 几 个 类 别 的 案例 所 组 成 的 训练 数据 集 ， 类 别 由 名 义 变 量 来 标 
记 。 假设 我 们 有 一 个 由 未 标记 的 案例 构成 的 测试 数据 集 ， 除 去 分 类 标记 外 ， 测 试 数据 集 和 训 
练 数据 集 有 相同 的 特征 。 对 于 测试 数据 集中 的 每 一 个 记录 ，KNN 确定 训练 数据 集中 与 该 记录 
相似 度 “最近 ” 的 条 记录 ， 其 中 是 一 个 预先 指定 的 整数 ， 未 标记 的 测试 实例 被 分 配 到 
个 近邻 中 占 比 最 大 的 那个 类 中 。 

为 了 说 明 这 个 过 程 ， 让 我 们 回顾 引言 中 所 描述 的 黑暗 餐厅 用 和 餐 的 经 历 。 假 设 在 吃 一 顿 神 
秘 的 膳食 之 前 ， 我 们 创建 了 一 个 品味 数据 集 ， 在 这 个 数据 集中 ， 记 录 了 我 们 对 于 之 前 所 品尝 
的 很 多 配料 的 印象 。 为 了 简单 起 见 ， 我 们 只 记录 了 每 种 配料 (ingredient) 的 两 个 特征 ， 第 一 
个 特征 是 对 配料 有 多 脆 的 度量 (crunchiness)， 从 1 ~ 10 ; 第 二 个 特征 是 对 配料 有 多 甜 的 度量 
(Sweetness)， 从 1 ~ 10。 然 后 ， 我 们 标记 配料 为 3 种 类 型 之 一 : fruit (水 果 )、vegetable (蔬菜 ) 
或 者 protein (蛋白质)。 该 数据 集 的 前 几 行 可 能 具有 如 下 所 示 的 结构 : 


ingredient 





banana 
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ingredient crunchiness 


vegetable 





protein 


cheese 


kNN 算法 将 特征 处 理 为 一 个 多 维特 征 空间 ( feature space) 内 的 坐标 。 由 于 我 们 的 数据 集 

忆 含 了 两 个 特征 ， 所 以 特征 空间 是 二 维 的 。 我 们 可 以 绘制 二 维 数据 散 点 图 ， 维 度 x 表示 配 
料 的 副 度 sweetness)， 维 度 表示 配料 的 脆 度 (crunchiness)。 在 品味 数据 集中 增加 更 多 的 配 
料 后 ， 散 点 图 看 起 来 可 能 如 下 图 所 示 。 


celery carrot 
lettuce 
apple 
cucumber 
本 green bean 
号 
名 Pear 
8 
nuts 
>, grape 
三 
和 bacon 
oo 
二 ， orange 
号 shrimp 
fish banana 
cheese 





how sweet the food tastes 
你 注意 到 上 述 图 形 了 吗 ?” 相 似 类 型 的 食物 趋向 于 聚集 得 更 近 。 如 下 图 所 示 ， 蔬 菜 往往 是 
脆 而 不 甜 的 ;水果 往往 是 甜 的 ， 有 可 能 脆 ， 也 有 可 能 不 脆 ; 而 蛋白 质 往往 是 既 不 脆 也 不 甜 。 


how crunchy the food is 





how sweet the food tastes 
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假设 在 创建 此 数据 集 之 后 ， 我 们 决定 用 它 来 解决 一 个 古老 的 问题 : 西红柿 ( tomato) 是 
水 果 (fruit)， 还 是 蔬菜 ( vegetable) ? 我 们 可 以 使 用 一 种 近邻 方法 来 确定 哪 类 更 适合 西红柿 
(tomato)， 如 下 图 所 示 。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 


I 
I 
| 
| cucumber 
4 





how crunchy the food is 





how sweet the food tastes 


1. 计算 距离 


定位 西红柿 (tomato) 的 近邻 需要 一 个 距离 函数 (distance function) 或 者 一 个 用 来 衡量 两 
个 实例 ( 即 案例 ) 之 间 相 似 性 的 公式 。 

计算 距离 有 许多 种 不 同 的 方法 。 传 统 上 ，kNN 算法 采用 的 是 欧式 距离 ( Euclidean 
distance)， 这 种 距离 可 以 通过 用 尺子 连接 两 个 点 来 测量 ,在 上 图 中 ， 我 们 通过 虚线 将 西 红 杭 
(tomato) 与 它 的 邻居 连接 在 一 起 ， 


欧式 距离 通过 “直线 距离 ” (crow flies) 来 度量 ， 即 最 短 的 直接 路 线 。 另 一 种 

Wi 常见 的 距离 度量 是 曼哈顿 距离 (Manhattan distance )， 该 距离 基于 一 个 行人 在 

以 城市 街区 步行 所 采取 的 路 线 。 如 果 你 有 兴趣 了 解 更 多 关于 距离 度量 的 方法 ， 
可 以 使 用 ?dist 命令 ， 阅 读 民 中 的 距离 函数 文档 (该 文档 本 身 就 是 一 个 很 
有 用 的 工具 ) 


欧式 距离 通过 如 下 公式 定义 ， 其 中 p 和 g 是 需要 比较 的 案例 ， 它 们 都 有 个 特征 ,项 p, 
代表 案例 p 的 第 一 个 特征 的 值 ， 而 9, 代表 案例 g 的 第 一 个 特征 的 值 : 





dist(p,g)= (pi.—4) +(p; 9) ++(p, -9,) 


距离 公式 涉及 比较 每 个 特征 的 值 。 例 如 ， 为 了 计算 西红柿 (tomato) ( sweetness ( 甜 度 ) = 
6, crunchiness( 脆 度 ) =4 ) 和 绿豆 ( green bean) (sweetness ( 甜 度 ) =3， crunchiness ( 脆 度 ) =7 ) 
之 则 的 距离 ， 可 以 使 用 如 下 的 公式 : 


dist (tomato, green bean ) = (6-3) +(4-7) =4.2 
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与 此 类 似 ， 可 以 计算 西红柿 (tomato) 与 它 的 几 个 近邻 之 间 的 距离 ， 如 下 表 所 示 。 




























ingredient Sweetness distance to the tomato 
grape 一 sqrt((6 — 8)°2 + (4 — 5)*2) = 2.2 
nuts a sqrt((6 — 3)2 + (4-6)°2)=3.6 








sqrt((6-7)^2+(4-3)^2)=1.4 





orange 





为 了 将 西红柿 (tomato) 归 类 为 蔬菜 ( vegetable)、 蛋 白质 ( protein )， 或 者 水 果 ( fruit)， 
我 们 先 从 把 西红柿 (tomato) 归 类 到 离 它 最 近 的 一 种 食物 所 在 的 类 型 开始 。 因 为 这 里 广 1， 
所 以 这 称 为 INN 分 类 ，。 梯 子 ( orange) 是 西红柿 ( tomato) 的 近邻 ， 距 离 是 1.4。 因 为 橙子 
(orange) 是 一 种 水 果 ， 所 以 INN 算法 把 西红柿 (tomato) 归 类 为 一 种 水 果 。 

如 果 我 们 使 用 厂 3 的 kNN 算法 ,那么 它 会 在 3 个 近邻 : 橙子 (orange)、 葡 萄 (grape) 和 
坚果 (nuts) 之 间 进 行 投票 表决 。 因 为 这 3 个 邻居 的 大 多 数 归 类 为 水 果 ( 2/3 的 票数 )， 所 以 西 
红 柿 (tomato) 再 次 被 归 类 为 水 果 。 


2. 选择 一 个 合适 的 


确定 用 于 kNN 算法 的 邻居 数量 将 决定 把 模型 推广 到 未 来 数据 时 模型 的 好 坏 。 过 度 拟 合 
和 低 度 拟 合 训练 数据 之 间 的 平衡 问题 称 为 偏差 -方差 权衡 ( bias-variance tradeoff)。 选 择 一 个 
大 的 大 会 减少 噪声 数据 对 模型 的 影响 或 者 减少 噪声 导致 的 模型 波动 ， 但 是 它 会 使 分 类 器 产生 
偏差 ， 比 如 ， 它 有 忽视 不 易 察 觉 但 却 很 重要 模式 的 风险 。 

假设 我 们 采取 一 个 极端 的 情况 ， 即 设置 一 个 非常 大 的 大， 它 等 于 训练 数据 中 所 有 观测 值 
的 数量 。 由 于 每 一 个 训练 案例 都 会 在 最 后 的 投票 表决 中 出 现 ， 所 以 最 常见 的 训练 类 总 会 获得 
大 多 数 的 票 。 因 此 ， 模 型 总 会 预测 为 数量 占 大 多 数 的 那个 训练 类 ， 而 不 管 哪个 邻居 是 最 近 的 。 

在 相反 的 极端 情况 下 ,使 用 一 个 单一 的 近邻 会 使 得 噪声 数据 或 者 异常 值 过 度 影 响 案例 的 分 
类 。 例 如， 假设 一 些 训练 案例 被 意外 地 贴 错 了 标签 ， 而 另 一 些 未 标记 的 案例 恰好 是 最 接近 于 被 
错误 标记 的 训练 案例 ， 那 么 它 就 会 被 预测 到 错误 的 类 中 ， 即 使 其 他 的 9 个 近邻 有 不 同 的 投票 

显然 ， 最 好 的 值 应 该 取 这 两 个 极端 值 之 间 的 某 个 值 。 

下 面 的 图 更 一 般 地 说 明了 决策 边界 (由 虚线 表示 ) 如 何 受 到 较 大 的 或 者 较 小 的 上 值 的 影 
响 。 较 小 的 上 值 会 给 出 更 复杂 的 决策 边界 ， 它 可 以 更 精细 地 拟 合 训练 数据 。 但 问题 是 ， 我 们 
并 不 知道 是 直线 边界 还 是 曲线 边界 能 更 好 地 代表 我 们 将 要 学 习 的 正确 概念 。 





较 大 的 值 较 小 的 值 
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在 实际 中 , 大 的 选取 取决 于 要 学 习 概 念 的 难度 和 训练 数据 中 案例 的 数量 。 通 常 , 大 为 
3 ~ 10。 一 种 常见 的 做 法 就 是 设置 上 等 于 训练 集中 案例 数量 的 平方 根 。 在 我 们 之 前 研究 的 食 
物 分 类 器 中 ， 我 们 可 以 设置 4， 因为 训练 数据 中 有 15 个 案例 ，15 的 平方 根 是 3.87. 

然而 ， 这 样 的 规则 可 能 并 不 总 是 产生 一 个 最 好 的 上 值 。 另 一 种 方法 是 基于 各 种 测试 数据 
集 来 测试 多 个 大 值 ， 并 选择 一 个 可 以 提供 最 好 分 类 性 能 的 上 值 。 从 另 一 方面 来 说 ， 除 非 数据 
的 噪声 非常 大 ， 和 否则 更 大 的 、 更 具 代 表 性 的 训练 数据 集 可 以 使 上 值 的 选择 并 不 那么 重要 。 这 
是 因为 即使 是 微小 的 概念 ， 也 将 有 一 个 足够 大 的 案例 池 来 进行 投票 ， 以 便 选 举 出 近邻 。 


一 个 不 太 常见 但 很 有 趣 的 解决 这 个 问题 的 方法 是 选择 一 个 较 大 的 大 值 ， 但 是 


AL 
同时 应 用 一 个 权重 投票 ( weighted voting) 过 程 ， 在 这 个 过 程 中 ， 认 为 较 近 
邻 的 投票 比 远 邻 的 投票 更 加 有 权威 
3. 准备 KNN 算法 使 用 的 数据 


在 应 用 KNN 算法 之 前 ,通常 将 特征 转换 为 一 个 标准 的 范围 内 。 这 个 步骤 的 合理 性 在 
于 ,距离 公式 依赖 于 特征 是 如 何 被 度量 的 。 特 别 地 ， 如 果 某 个 特征 具有 比 其 他 特征 更 大 的 
值 ， 那 么 距离 的 度量 就 会 强烈 地 被 这 个 较 大 的 值 所 支配 。 而 对 于 我 们 之 前 的 食物 品味 数据 ， 
这 并 不 算是 一 个 问题 ， 因 为 甜 度 ( sweetness) 和 脆 度 ( crunchiness) 的 度量 都 是 在 1 ~ 10 
的 范围 内 

假设 我 们 增加 一 个 额外 的 特征 来 表示 辛辣 度 ( spiciness)， 并 使 用 史 高 维尔 指标 ( Scoville 
scale ) 来 测量 它 。 史 高 维尔 指标 是 辛辣 热量 的 一 种 标准 化 度量 ， 范 围 从 0 (不 辣 ) 到 超过 100 
万 (最 火 辣 的 辣椒 )。 因 为 辛辣 食物 和 非 辛辣 食物 之 间 的 差异 可 能 会 超过 100 万 ， 而 甜食 和 
韭 甜 食 之 间 的 差异 至 多 是 10， 所 以 我 们 可 能 会 发 现 距 离 度 量 只 能 通过 食物 的 辛辣 度 来 加 以 区 
别 ， 而 脆 度 和 甜 度 的 影响 将 会 由 于 辛辣 度 对 于 距离 的 贡献 而 显得 相形 见 绸 

我 们 需要 的 是 一 种 “收缩 ”或 者 重新 缩放 各 种 特征 的 方法 ， 以 使 得 每 个 特征 对 距离 公式 
的 贡献 相对 平均 。 例 如 ， 如 果 甜 度 和 脆 度 的 度量 都 在 范围 ! ~ 10， 那 么 我 们 也 希望 辛辣 度 的 
度量 也 在 范围 1 ~ 10， 有 一 些 方法 可 以 完成 这 样 的 尺度 调整 。 

对 kNN 算法 的 特征 进行 重新 调整 的 传统 方法 是 min-max 标准 化 ( min-max normalization )， 
该 过 程 将 特征 转化 ， 以 使 它 的 所 有 值 都 落 在 0 ~ 1 的 范围 内 。 将 特征 进行 min-max 标准 化 的 
公式 如 下 所 示 。 本 质 上 ,该 公式 就 是 特征 的 每 一 个 值 减 去 它 的 最 小 值 再 除 以 特征 的 值 域 : 

x = -min(X) 
” max(X)-min(X) 

min-max 标准 化 的 特征 值 可 以 这 样 解释 : 按 0% ~ 100% 来 说 ， 在 原始 最 小 值 和 原始 最 
大 值 范 围 内 ， 原 始 值 到 原始 最 小 值 的 距离 有 多 远 。 

另 一 种 常见 的 变换 称 为 z-score 标准 化 ( z-score standardization)。 下 面 的 公式 是 减 去 特 
征 蕊 的 均值 后 ， 再 除 以 蕊 的 标准 差 : 
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X-1 XX—-Mean(X) 
og StdDev(X) 


这 个 公式 是 基于 在 第 2 章 中 所 介绍 的 正 态 分 布 的 性 质 ， 即 根据 每 一 个 特征 的 值 落 在 均值 
上 下 的 标准 差 的 数量 来 重新 调整 每 一 个 特征 的 值 ， 所 得 到 的 值 称 为 z-Score。z-score 落 在 
一 个 无 界 的 负数 和 正 数 构成 的 范围 内 ， 它 们 不 像 min-max 标准 化 后 的 值 那样 ， 它 们 没有 预定 
义 的 最 小 值 和 最 大 值 

欧式 距离 公式 并 不 是 为 名 义 数 据 定义 的 。 因 此 ， 为 了 计算 名 义 特 征 之 间 的 距离 ， 我 们 需 
要 将 它们 转化 成 数值 型 格式 。 一 种 典型 的 解决 方案 就 是 利用 哑 变 量 编码 ( dummy coding)， 其 
中 1 表示 一 个 类 别 ，0 表示 其 他 类 别 。 例 如 ， 对 性 别 变量 进行 哑 变 量 编码 可 以 这 样 构建 : 


| 如 果 x =male 
male = 


Xnew > 


0 其 他 

注意 对 含有 两 个 可 能 取 值 的 (二 元 ) 性 别 变量 进行 哑 变 量 编码 如 何 产生 一 个 新 的 名 为 
male 的 特征 ， 而 为 female 构建 一 个 单独 的 特征 是 没有 必要 的 ， 因 为 两 种 性 别 是 互 斥 的 ， 知 
道 其 中 一 个 就 足够 了 

这 种 方法 实际 上 可 以 更 加 广泛 地 应 用 。 一 个 具有 个 类 别 的 名 义 特征 可 以 通过 对 特征 的 
(n-1) 个 水 平 创建 二 元 指示 变量 来 进行 哑 变 量 编码 。 例 如 ， 为 一 个 具有 3 个 类 别 的 温度 变量 
进行 中 变量 编码 (比如 ，hot、medium 或 者 cold)， 可 以 用 ( 3-1 ) =2， 两 个 特征 来 进行 设置 ， 
如 下 式 所 示 : 


1 如 果 x= hot 
WW -| 其 他 
] 如 果 x=medium 
0 其 他 

这 里 ， 只 要 知道 hot 和 medium 的 值 同 时 为 0 就 足以 说 明 温 度 是 cold， 因 此 我 们 不 需要 
为 cold 属性 设置 第 3 个 特征 。 

哑 变 量 编码 的 一 个 方便 之 处 就 在 于 哑 变 量 编码 的 特征 之 间 的 距离 总 是 为 1 或 者 0， 因此 ， 
与 min-max 标准 化 的 数值 型 数据 一 样 ， 这 些 值 落 在 了 一 个 相同 的 标 度 内 ， 不 需要 进行 额外 的 
变换 。 


medium = | 


如 果 名 义 特征 是 有 序 的 (可 以 将 我 们 刚刚 看 到 的 温度 变量 作为 例子 )， 那 么 
一 种 哑 变 量 编码 的 蔡 代 方法 就 是 给 类 别 编 号 并 且 应 用 min-max 标准 化 。 例 

如 ，cold、warm 和 hot 可 以 编号 为 1、2 和 3，min-max 标准 化 后 为 0、0.5 
和 1。 使 用 该 方法 要 注意 的 是 ， 只 有 当 你 确信 类 别 之 间 的 步 长 相等 时 ， 才 能 
应 用 该 方法 。 例 如， 你 可 以 证 明 ， 尽管 poor、middle class 和 wealthy 是 有 序 
的 ， 但 是 poor 和 middle class 之 间 的 差异 比 middle class 和 wealthy 之 间 的 差 
异 大 (或 小 )。 在 这 种 情况 下 ， 哑 变量 编码 是 一 种 更 保险 的 方法 。 
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基于 近邻 方法 的 分 类 算法 被 认为 是 懒惰 学 习 算 法 ， 因 为 从 技术 上 来 说 ， 没 有 抽象 化 的 步 
又 。 抽 象 过 程 和 一 般 化 过 程 都 被 跳 过 了 ， 这 就 破坏 了 第 1 章 给 出 的 学 习 的 定义 。 

从 学 习 这 个 概念 的 严格 定义 上 来 说 ， 懒 惰 学 习 并 不 是 真正 在 学 习 什 么 。 相反， 它 仅仅 是 
一 字 不 差 地 存储 训练 数据 ， 这 样 训 练 阶段 就 进行 得 很 快 ， 同 时 伴随 着 一 个 潜在 的 不 利 因素 ， 
即 进行 预测 的 过 程 往往 会 变 得 相对 较 慢 。 由 于 高 度 依赖 于 训练 案例 〈 或 实例 )， 所 以 懒惰 学 习 
又 称 为 基于 实例 的 学 习 (instance-based learning ) 或 者 机 械 学 习 (rote learning ) - 

由 于 基于 实例 的 学 习 算 法 并 不 会 建立 一 个 模型 ， 所 以 该 方法 被 归 类 为 非 参 数 ( non- 
parametric ) 学 习 方法 ， 即 没有 需要 学 习 的 数据 参数 。 因 为 没有 产生 关于 数据 的 理论 ， 所 以 非 
参数 方法 限制 了 我 们 理解 分 类 器 如 何 使 用 数据 的 能 力 。 男 一 方面 ， 它 允许 学 习 算 法 发 现 数据 
中 的 自然 模式 ， 而 不 是 试图 将 数据 拟 合 为 一 个 预先 设 定 的 形式 。 

尽管 kNN 分 类 器 可 能 被 认为 是 懒惰 的 ， 但 它们 还 是 很 强大 的 ， 正 如 你 不 久 就 会 看 到 的 ， 
kNN 的 简单 原则 可 以 用 于 癌症 的 自动 化 筛 查 过 程 。 


3.2 ”用 kNN 算法 诊断 乳腺 癌 


定期 的 乳腺 癌 检 查 使 得 疾病 在 引起 明显 的 症状 之 前 就 得 到 诊断 与 治疗 。 早 期 的 检测 过 程 
包括 检查 乳腺 组 织 的 异常 肿块 。 如 果 发 现 一 个 肿块 ， 那 么 就 需要 进行 细 针 抽 吸 活检 ， 即 利用 
一 根 空心 针 从 肿块 中 提取 细胞 的 一 小 部 分 ， 然 后 临床 医生 在 显微镜 下 检查 细胞 ， 从 而 确定 肿 
块 可 能 是 恶性 的 还 是 良性 的 。 

如 果 机 咒 学 习 能 够 自动 识别 癌 细 胞 ， 那 么 它 将 为 医疗 系统 提供 相当 大 的 益处 。 自 动 化 的 
过 程 很 有 可 能 提高 检测 过 程 的 效率 ， 从 而 可 以 让 医生 在 诊断 上 花 更 少 的 时 间 ， 而 在 治疗 疾病 
上 花 更 多 的 时 间 。 自 动 化 的 筛 查 系 统 还 可 能 通过 去 除 该 过 程 中 的 内 在 主观 人 为 因素 来 提供 更 
高 的 检测 准确 性 。 

从 带 有 异常 乳腺 肿块 的 女性 身上 的 活检 细胞 的 测度 数据 入 手 ， 应 用 kNN 算法 ， 从 而 研 
究 机 器 学 习 用 于 检测 癌症 的 功效 。 


3.2.1 第 1 步 一 一 收集 数据 


我 们 将 使 用 来 自 UCI 机 器 学 习 数 据 仓 库 ( UCI Machine Learning Repository) 的 “ 威 斯 
康 星 乳腺 癌 诊 断 ”( Breast Cancer Wisconsin Diagnostic) 数据 集 ， 该 数据 可 以 从 网 站 http:// 
archive.ics.uci.edu/ml 获得 。 该 数据 是 由 威斯康星 大 学 的 研究 者 捐赠 的 ， 包 括 乳 房 肿块 细 针 抽 
吸 活检 图 像 的 数字 化 的 多 项 测度 值 ， 这 些 值 代表 出 现在 数字 化 图 像 中 的 细胞 核 的 特征 。 

乳腺 癌 数 据 包 括 569 例 细胞 活检 案例 ， 每 个 案例 有 32 个 特征 。 一 个 特征 是 识别 号 码 ， 
一 个 特征 是 癌症 诊断 结果 ， 其 他 30 个 特征 是 数值 型 的 实验 室 测量 结果 。 癌 症 诊断 结果 用 编 
码 “M” 表 示 恶 性 ， 用 编码 “B” 表 示 良 性 。 
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想 要 阅读 更 多 关于 威斯康星 乳腺 癌 数 据 的 信息 ， 可 参考 作者 发 表 的 论文 : Nuclear 

< feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International 

Symposium on Electronic Imaging: Science and Technology, volume 1905, pp 
861-870 by W.N. Street, W.H. Wolberg, and O.L. Mangasarian, 1993 。 


30 个 数值 型 测量 结果 由 数字 化 细胞 核 的 10 个 不 同 特征 的 均值 、 标 准 差 和 最 差 值 ( 即 最 
大 值 ) 构成 。 这 些 特 征 包 括 : 

口 Radius (半径 ) 

口 Texture (质地 ) 

口 Perimeter ( 周 长 ) 

口 Area (面积 ) 

口 Smoothness (光滑 度 ) 

口 Compactness (致密 性 ) 

口 Concavity ( 止 度 ) 

口 Concave points (四 点 ) 

口 Symmetry (对 称 性 ) 

口 Fractal dimension (分 形 维 数 ) 

根据 它们 的 名 字 ， 所 有 的 特征 似乎 都 与 细胞 核 的 形状 和 大 小 有 关 。 除 非 你 是 一 个 癌症 医 
师 ， 和 否则 你 不 大 可 能 知道 每 个 特征 如 何 与 良性 或 者 恶性 肿块 联系 在 一 起 。 在 我 们 继续 机 器 学 
习 的 过 程 中 ， 这 些 模式 将 会 被 揭示 。 


3.2.2 第 2 步 一 一 探索 和 准备 数据 
让 我 们 来 探索 数据 并 且 看 看 是 否 能 让 数据 之 间 的 关系 明朗 化 一 些 。 与 此 同时 ， 我 们 要 准 
备 使 用 kNN 学 习 算 法 所 要 用 到 的 数据 。 
如 果 你 计划 跟着 一 起 学 习 ， 那 么 你 需要 从 Packt 网 站 下 载 wisc_bc_data. 
csv 文 件 ， 并 将 它 保存 到 你 的 及 工 作 目 录 下 面 。 本 书 中 对 该 数据 集 做 了 非 
常 轻微 的 修改 。 有 具体 讲 ， 增 加 了 一 个 标题 行 ， 对 行 数据 进行 了 随机 排序 。 


AL 


与 我 们 先前 所 做 的 一 样 ， 我 们 将 从 导入 CSV 数据 文件 开始 ， 把 威斯康星 乳腺 癌 数 据 保 
存 到 数据 框 wbca 中 

> wbcq <- read.csv("wisc bc data.csv'", stringsAsFactors = FALSE) 

正如 我 们 所 预期 的 那样 ， 使 用 命令 str (wbcd) 可 以 确认 数据 是 由 569 个 案例 和 32 个 
特征 构成 的 。 前 几 行 的 输出 结果 如 下 所 示 : 


'data.frame': 569 obs. of 32 variables: 

S$ 1 : int 87139402 8910251 905520 ... 
$ diagnosis : hr "BY vew we wBY 。。。 

$ radius mean 3 mum 12:3 10.6 11 13 1552 
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$ texture mean 2 Tum L244 18.9 16.8 1354 1352 ras 
$ perimeter mean : Bm 78.8 69.3 70.9 73 97.7 .5。 
$ area mean : num 464 346 373 385 712 .. 


第 一 个 变量 是 一 个 名 为 id 的 整 型 变量 。 由 于 这 仅仅 是 每 个 病人 在 数据 中 唯一 的 标识 符 
(ID)， 它 并 不 能 提供 有 用 的 信息 ， 所 以 我 们 需要 把 它 从 模型 中 排除 。 
不 管 是 什么 机 器 学 习 方 法 ，ID 变量 总 是 要 被 别 除 的 ， 不 这 样 做 会 导致 错误 
本 的 结果 ， 因 为 ID 可 以 用 来 独一无二 地 “预测 ”每 一 个 人 案例。 因此， 包括 标 
Q 识 符 的 模型 很 可 能 会 受到 过 度 拟 合 的 影响 ， 并且 不 太 可 能 很 好 地 推广 到 其 他 


首先 将 ia 特征 完全 剔除 。 由 于 它 位 于 第 一 列 ， 所 以 我 们 可 以 通过 复制 一 个 不 包括 列 1 
的 wbca 数据 框 来 剔除 它 : 

> wbcd <- wbcd[-1] 

接 下 来 的 变量 是 aiagnosis， 它 是 我 们 特别 感 兴趣 的 ， 因 为 它 是 我 们 希望 预测 的 结果 。 
这 个 特征 表示 案例 是 来 自 于 良性 肿块 还 是 恶性 肿块 。 函 数 table () 的 输出 结果 表示 357 个 
肿块 是 良性 的 ， 而 212 个 肿块 是 恶性 的 : 


> table (wpcd$diagnosis) 
B M 
3357 发 12 


许多 R 机 器 学 习 分 类 器 要 求 将 目标 属性 编码 为 因子 类 型 ， 所 以 我 们 需要 重新 编码 
diagnosis 变量 。 同 时 ， 我 们 也 会 用 labels 参数 对 B 值 和 M 值 给 出 含有 更 多 信息 的 标签 : 


> wbhcd$diagnosis <- factor (wbcd$diagnosis, levels = c("B", "M"), 
labels = c("Benign", "Malignant")) 


现在 ， 当 我 们 观察 函数 prop .table () 的 输出 结果 时 ， 我 们 注意 到 ， 输 出 值 被 标记 为 
Benign 和 Malignant，, 分 别 有 62.7% 的 良性 肿块 和 37.3% 的 恶性 肿块 : 


> round(prop.table (table (wbcd$diagnosis)) * 100, digits = 1) 
Benign Malignant 
62.7 3%.8 


其 余 的 30 个 特征 都 是 数值 型 的 ， 与 预期 的 一 样 ， 由 10 个 细胞 核 特 征 的 3 种 不 同 测量 构 
成 。 作 为 示例 ， 我们 这 里 详细 地 观察 3 个 特征 : 


> summary (wbcdlc ("radius mean", "area mean'", ‘"smoothness mean'")]) 
radius mean area_ mean smoothness_mean 

Min. 6981 Min. 和 二 3 Min. :0.05263 

lst Qis :11s700 lst Qu.: 420.3 lst Qu.:0.08637 

Median :13.370 Median : 551.1 Median :0.09587 

Mean :14.127 Mean : 654.9 Mean :0.09636 

3rd Qu.:15.780 3rd Qu.: 782.7 3rd Qu.:0.10530 

Max. : 28...110 Max. :2501.0 Max . :0.16340 


纵 观 这 些 并 排 的 特征 ， 你 注意 到 关于 数值 的 一 些 问题 吗 ? 回 想 一 下 ，kNN 的 距离 计算 在 
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很 大 程度 上 依赖 于 输入 特征 的 测量 尺度 。 由 于 smoothness_mean 的 范围 是 从 0.05 ~ 0.16， 
而 area_mean 的 范围 是 从 143.5 ~ 2501.0， 所 以 在 距离 计算 中 ， 区 域 (area-mean) 的 影响 
比 平滑 度 ( smoothness-mean) 的 影响 大 很 多 ， 这 可 能 会 潜在 地 导致 我 们 的 分 类 器 出 现 问 题 ， 
所 以 我 们 应 用 min-max 标准 化 方法 重新 调整 特征 的 值 到 一 个 标准 的 范围 内 。 


1. 转换 min-max 标准 化 数值 型 数据 


为 了 将 这 些 特征 min-max 标准 化 ， 我 们 需要 在 R 中 创建 一 个 normalize() 因数 ， 该 
函数 输入 一 个 数值 型 向 量 x， 并 且 对 于 x 中 的 每 一 个 值 ， 减 去 x 中 的 最 小 值 再 除 以 x 中 值 的 
范围 ， 最 后 ， 返 回 结 果 向 量 。 该 函数 的 代码 如 下 : 


> normalize <- function(x) { 
return ((x - min(x)) / (max(x) - min(x))) 


} 
运行 上 面 的 代码 之 后 ， 函 数 normalize() 就 可 以 使 用 了 。 让 我 们 用 几 个 向 量 来 测试 这 
个 函数 : 
> normalize(c(1, 2, 3, 4, 5)) 
li O00 G25 0.50 075 1.00 


> normalize(c(10, 20, 30, 40, 50)) 
[1] 0.00 0.25 0.50 0.75 1.00 


该 函数 看 来 是 能 正确 运行 。 事实 上 ， 尽 管 第 二 个 向 量 中 的 值 是 第 一 个 向 量 中 的 值 的 10 
音 ， 但 是 在 min-max 标准 化 以 后 ， 这 两 个 向 量 返 回 的 结果 是 完全 一 样 的 。 

现在 ,我 们 可 以 将 normalize () 函数 应 用 于 我 们 数据 框 中 的 数值 型 特征 。 我 们 并 不 需 
要 对 这 30 个 数值 型 变量 逐个 进行 min-max 标准 化 ， 这 里 可 以 使 用 R 中 的 一 个 函数 来 自动 完 

R 中 的 1apply() 函数 可 以 输入 一 个 列表 ， 然 后 把 一 个 函数 应 用 到 列表 的 每 一 个 元 
素 。 因 为 数据 框 是 一 个 含有 等 长 度 向 量 的 列表 ， 所 以 我 们 可 以 使 用 1apply() 函数 将 
normalize() 函数 应 用 到 数据 框 中 的 每 一 个 特征 。 最 后 一 个 步骤 是 ， 应 用 函数 as .data. 
frame() 把 1apply() 返回 的 列表 转换 成 一 个 数据 框 。 全 部 过 程 如 下 所 示 : 

> wbcd n <- as.data.frame (lapply (wbcd[2:31], normalize)) 

以 通俗 的 语言 来 讲 ， 该 命令 把 normalize () 函数 应 用 到 数据 框 wbcad 的 第 2 ~ 31 列 ， 
把 产生 的 结果 列表 转换 成 一 个 数据 框 ， 并 给 该 数据 框 赋 予 一 个 名 称 wbca_n。 这 里 使 用 的 后 
级 “_n” 是 作为 一 个 提示 ， 即 wbca 中 的 值 已 经 被 min-max 标准 化 了 。 

为 了 确认 转换 是 否 正确 应 用 ， 让 我 们 来 看 看 其 中 一 个 变量 的 汇总 统计 量 : 


> summary (wbcd ns$area mean) 
Min. lst Qu. Median Mean 3rd Qu. Max . 
0.0000 0.1174 0.1729 0.2169 0.2711 1.0000 


正如 预期 的 那样 ，area_mean 变量 的 原始 范围 是 143.5 ~ 2501.0， 而 现在 的 范围 是 
on 
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2. 数据 准备 一 一 创建 训练 数据 集 和 测试 数据 集 

尽管 所 有 的 569 个 活检 的 良性 或 者 恶性 情形 都 已 被 标记 ， 但 是 预测 我 们 已 经 知道 的 结 
并 不 是 特别 令 人 感 兴趣 的 。 此 外 ,我 们 在 训练 期 间 得 到 的 算法 分 类 好 坏 的 衡量 指标 可 能 是 有 
误 的 ， 因 为 我 们 不 知道 数据 发 生 过 度 拟 合 的 程度 ,或 者 说 ， 不 知道 推广 到 未 知情 形 时 的 效果 
有 多 好 。 一 个 更 有 趣 的 问题 是 ， 对 于 一 个 没有 标记 数据 的 数据 集 ， 学 习 算法 的 性 能 怎样 。 如 
果 我 们 有 机 会 使 用 实验 室 ， 那 么 我 们 可 以 将 学 习 算 法 应 用 到 接 下 来 的 100 个 未 知 癌症 情形 的 
肿块 的 测量 数据 ， 并 且 看 看 与 用 传统 方法 得 到 的 诊断 结果 相 比 ， 机 器 学 习 算 法 的 预测 怎样 。 

由 于 缺少 这 样 的 数据 ， 所 以 我 们 可 以 通过 把 我 们 的 数据 划分 成 两 部 分 来 模拟 这 种 方案 : 
一 部 分 是 用 来 建立 kNN 模型 的 训练 数据 集 ; 另 一 部 分 是 用 来 估计 模型 预测 准确 性 的 测试 数据 
集 。 我 们 使 用 前 469 条 记录 作为 训练 数据 集 ， 剩 下 的 100 条 记录 用 来 模拟 新 的 病人 。 

使 用 在 第 2 章 中 给 出 的 数据 提取 方法 ,我 们 将 把 wcab_n 数据 框 拆 分 为 wbcd_train 
数据 框 和 wbca_test 数据 框 : 


> whcd train <- wbcd n[1:469, ] 
> wbcd test <- wbcd n[470:569, ] 


如 果 上 面 的 代码 让 你 困惑 了 ， 那 么 记 住 ， 从 数据 框 中 提取 数据 使 用 的 是 [row， column] 
语法 ， 如 果 行 值 或 者 列 值 是 空 的 ， 就 表明 所 有 的 行 或 者 列 都 应 该 被 包含 在 内 。 因 此 ， 第 一 行 代 
码 取 的 是 第 1 ~ 469 行 的 所 有 列 ， 第 二 行 取 的 是 470 ~ 569 行 的 100 行 的 所 有 列 。 


当 构 造 训练 数据 集 和 测试 数据 集 时 ， 保 证 每 一 个 数据 集 都 是 数据 全 集 的 一 个 
有 代表 性 的 子 集 是 很 重要 的 。 在 刚刚 看 到 的 案例 中 ， 记 录 已 经 按照 随机 顺序 
省、 排列， 所 以 我 们 可 以 简单 地 提取 100 个 连续 的 记录 来 创建 一 个 测试 数据 集 。 
CR ， 虹 攻 招 是 接 归 非 随机 的 楼 式 排列 的 ， 比 如 接 时 间 是 库 避 者 以 具有 相似 值 的 
组 的 顺序 ， 那 么 这 将 不 是 合适 的 创建 上 述 两 个 数据 集 的 方法 。 在 这 些 情况 
下 ， 需 要 用 到 随机 抽样 方程 。 


当 我 们 构建 训练 数据 和 测试 数据 时 ， 我 们 剔除 了 目标 变量 diagnosis。 为 了 训练 kNN 
模型 ， 我 们 需要 把 这 些 类 的 标签 存储 在 一 个 因子 类 型 的 向 量 中 ,然后 把 该 向 量 划分 为 训练 数 ， 
据 集 和 测试 数据 集 : 

> wbcd train labels <- wbcd[1:469，1] 


> wbcd test labels <- wbcd[470:569，1] 


该 代码 使 用 wbca 数据 框 第 一 列 的 diagnosis 因子 ， 并 且 创 建 了 wbca train labels 和 
wbcd_test_labels 两 个 向 量 。 我 们 将 会 在 下 面 的 分 类 器 的 训练 和 评估 步骤 中 使 用 这 些 向 量 。 


3.2.3 ”第 3 步 一 一 基于 数据 训练 模型 


有 了 训练 数据 集 和 标签 向 量 后 ,我 们 现在 准备 好 对 未 知 记录 进行 分 类 。 对 于 kNN 算法 ， 
训练 阶段 实际 上 不 包括 模型 的 建立 一 一 训练 一 个 懒惰 学 习 算 法 的 过 程 ， 就 像 kNN 算法 仅 涉 
及 以 结构 化 格式 存储 输入 的 数据 。 
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为 了 将 我 们 的 测试 实例 进行 分 类 ， 我 们 使 用 来 自 class 添加 包 的 一 个 kNN 算法 实现 ， 
该 添加 包 提 供 了 一 组 用 于 分 类 的 基本 R 函数 。 如 果 该 添加 包 尚 未 安装 到 你 的 系统 上 ， 你 可 以 
通过 输入 以 下 命令 来 安装 它 : 

> install.packages ("class'") 

在 你 希望 使 用 这 些 函 数 的 任何 会 话 期 间 ， 你 只 需要 输入 命令 1ibrary (class) ， 就 可 加 
载 该 添加 包 。 

class 添加 包 中 的 knn () 函数 提供 了 一 个 标准 的 kNN 算法 实现 。 对 于 测试 数据 中 的 每 
一 个 实例 ， 该 函数 将 使 用 欧 氏 距离 标识 个 近邻 ,其 中 是 用 户 指定 的 一 个 数 。 于 是 ， 通 过 
kK 个 近邻 的 “投票 ”来 对 测试 个 案 进 行 分 类 一 一 确切 地 说 ， 该 过 程 涉 及 将 实例 归 类 到 个 近 
邻 中 的 大 多 数 所 在 的 那个 类 。 如 果 各 个 类 的 票数 相等 ， 该 测试 实例 会 被 随机 分 类 。 

在 其 他 民 添 加 包 中 ， 还 有 几 个 其 他 的 kNN 函数 ， 提 供 了 更 加 复杂 或 者 更 加 

~ 汪 、 高 效 的 算法 实现 。 如 果 你 受到 knn () 函数 的 限制 ， 可 以 查看 综合 只 档案 网 

QQ 络 (Comprehensive R Archive Network，CRAN)， 看 看 是 否 有 更 多 信息 。 虽 然 
如 此 ， 你 还 可 能 对 这 里 的 基本 函数 knn () 的 良好 工作 而 感到 惊讶 。 


使 用 knn () 函数 进行 训练 和 分 类 是 在 一 个 单一 的 函数 调用 中 执行 的 ， 它 包含 4 个 参数 ， 
如 下 表 所 示 。 

kNN 分 类 语法 

应 用 class 添加 包 中 的 函数 knn () 


创建 分 类 器 并 进行 预测 ; 

p <- knn(train, test, class, k) 
。 train; 一 个 包含 数值 型 训练 数据 的 数据 框 
e test; 一 个 包含 数值 型 测试 数据 的 数据 框 


。 class: 包含 训练 数据 每 一 行 分 类 的 一 个 因子 向 量 
。 k: 标识 最 近邻 数目 的 一 个 整数 
该 函数 返回 一 个 因子 向 量 ， 该 向 量 含有 测试 数据 框 中 每 一 行 的 预测 分 类 。 
例子 : 
wbcd pred <- knn(train = wbcd train, test = wbcd test,) 
cl =wbcd train labels, k = 3 
我 们 已 经 有 了 把 kNN 算法 应 用 到 该 数据 集中 的 几乎 所 有 参数 。 我 们 把 数据 划分 成 训练 
数据 集 和 测试 数据 集 ， 每 个 数据 集 都 有 完全 相同 的 数值 特征 。 训 练 数据 中 的 标签 存储 在 一 个 
单独 的 因子 向 量 中 ， 唯 一 剩 下 的 参数 是 kx， 它 指定 投票 中 所 包含 的 邻居 数量 。 
由 于 训练 数据 集 含 有 469 个 实例 ， 所 以 我 们 可 能 会 尝试 上 = 21， 它 是 一 个 大 约 等 于 469 
的 平方 根 的 奇数 。 使 用 奇数 将 会 减少 各 个 类 票数 相等 这 一 情况 发 生 的 可 能 性 。 
现在 ， 我 们 可 以 使 用 knn () 函数 来 给 测试 数据 进行 分 类 : 


> wbcd test pred <- knn(train = wbcd train, test = wbcd test, 
cl = wbcd train labels, k=21) 
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函数 knn () 返回 一 个 因子 向 量 ， 为 测试 数据 集中 的 每 一 个 案例 返回 一 个 预测 标签 ， 我 
们 将 该 因子 向 量 命 名 为 wbcd_test_pred。 


3.2.4 第 4 步 一 一 评估 模型 的 性 能 

该 过 程 的 下 一 步 就 是 评估 wbcd_test_pred 向 量 中 预测 的 分 类 与 wbcd_test_ 
labels 向 量 中 已 知 的 值 的 匹配 程度 如 何 。 为 了 做 到 这 一 点 ,我 们 可 以 使 用 gmodels 添加 
包 中 的 CrossTable() 函数 ， 它 在 第 2 章 中 介绍 过 。 如 果 你 还 没有 安装 该 添加 包 ， 可 以 使 
用 命令 instal1.packages ("gmodels") 进行 安装 。 

在 使 用 1ibrary (gmodels) 命令 加 载 该 添加 包 后 ， 可 以 创建 一 个 用 来 标识 两 个 向 量 
之 间 一 致 性 的 交叉 表 。 指 定 参 数 prop .chisq = FALSE, 将 会 从 输出 中 去 除 不 需要 的 卡 方 
(chi-square) 值 ， 如 下 所 示 : 


> CrossTable (x = wbcd test labels, y = wbcd test pred, 
prop.chisq=FALSE) 


由 此 产生 的 表 如 下 所 示 。 





Cell contents 


N | 

N / Row Total | 
N / Col Total | 
N / Table Total | 


Total Observations in Table: 1i00 


| wbcd_test_pred 
wbcd_test_labels | Benign | Malignant 


| | Row Total | 

Benign | 611 | 61 | 

| 1.000 | 0.000 | 0.610 | 

| 0.968 | 0. | | 

| 0.610 | 0.000 | | 
--—-------------1-----------|----------- j-----------| 
Malignant | "| 37 1 39 | 

1 0.051 | 0.949 | 0.390 | 

| 0.032 | 1.000 | | 

| 0.020 0.370 | | 

Column Total | | 100 | 
i | 


表格 中 单元 格 的 百分比 表示 落 在 4 个 分 类 里 的 值 所 占 的 比例 。 在 左上 角 的 单元 格 (标记 
为 TN) 中 ， 是 真 阴 性 (True Negative) 的 结果 。100 个 值 中 有 61 个 值 标识 肿块 是 良性 的 ， 而 
kNN 算法 也 正确 地 把 它们 标识 为 良性 的 。 在 右 下 角 的 单元 格 (标记 为 TP) 中 ， 显 示 的 是 真 阳 
性 (True Positive) 的 结果 ， 这 里 表示 的 是 分 类 器 和 临床 确定 的 标签 一 致 认为 肿块 是 恶性 的 情 
形 。100 个 预测 值 中 有 37 个 是 真 阳性 (True Positive) 的 。 

落 在 另 一 条 对 角 线 上 的 单元 格 包 含 了 KNN 算法 与 真实 标签 不 一 致 的 案例 计数 。 位 于 左 
下 角 FN 单元 格 的 2 个 案例 是 假 阴性 (False Negative) 的 结果 。 在 这 种 情况 下 ， 预 测 的 值 是 
良性 的 ， 但 肿瘤 实际 上 是 恶性 的 。 这 个 方向 上 的 错误 可 能 会 产生 极其 高 昂 的 代价 ， 因 为 它们 
可 能 导致 一 位 病人 认为 自己 没有 癌症 ， 而 实际 上 这 种 疾病 可 能 会 继续 草 延 。 如 果 右 上 和 角 标 记 
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为 FP 的 单元 格 里 有 值 ， 它 包含 的 是 假 阳性 ( False Positive) 的 结果 。 当 模型 把 肿块 标识 为 恶 
性 的 ， 而 事实 上 它 是 良性 时 就 会 产生 这 里 的 值 。 尽 管 这 类 错误 没有 假 阴 性 ( False Negative ) 
的 结果 那么 危险 ,但 这 类 错误 也 应 该 避免 ， 因 为 它们 可 能 会 导致 医疗 系统 的 额外 财政 负担 ， 
或 者 病人 的 额外 压力 ， 毕 竟 这 需要 提供 额外 的 检查 或 者 治疗 。 
如 果 我 们 需要 ， 我 们 可 以 通过 将 每 一 个 肿块 分 类 为 恶性 肿块 来 完全 排除 假 
阴性 ( False Negative) 的 结果 。 显 然 ， 这 是 一 个 不 切实 际 的 策略 。 然 而 ， 它 
~ 说 明了 一 个 事实 ， 即 预测 涉及 假 阳 性 (False Positive) 比率 和 假 阴性 ( False 
QQ Negative) 比率 之 间 的 一 个 平衡 。 在 第 10 章 中 ， 你 将 学 习 更 复杂 的 方法 来 度 
量 预测 的 准确 性 ， 根 据 每 种 错误 类 型 的 成 本 ， 这 些 方法 可 以 用 来 找 出 那些 错 
误 率 可 以 被 优化 的 地 方 。 
一 共有 2%， 即 根据 kNN 算法 ，100 个 肿块 中 ， 有 2 个 是 被 错误 分 类 的 。 虽 然 对 于 仅 用 
几 行 的 R 代码 ， 就 得 到 98% 的 准确 度 似 乎 令 人 印象 深刻 ， 但 是 我 们 可 以 尝试 一 些 其 他 的 模 


型 迭代 方法 来 看 看 我 们 是 否 可 以 提高 性 能 并 减少 错误 分 类 值 的 数量 ， 特 别 当 错误 是 危险 的 假 
阴性 (False Negative) 结果 时 . 


3.2.5 第 5 步 一 一 提高 模型 的 性 能 
对 于 前 面 的 分 类 器 ， 我 们 将 尝试 两 种 简单 的 改变 。 第 一 ， 我 们 将 使 用 另 一 种 方法 重新 调 
整数 值 特征 ; 第 二 ,我 们 将 尝试 几 个 不 同 的 大 值 。 





1. 转换 z-score 标准 化 


虽然 min-max 标准 化 是 传统 上 用 于 kNN 分 类 的 方式 ， 但 它 并 不 一 定 总 是 最 合适 的 调整 
特征 的 方法 。 因 为 z-score 标准 化 后 的 值 没 有 预定 义 的 最 小 值 和 最 大 值 ， 所 以 极端 值 不 会 被 
压缩 到 中 心 。 有 人 可 能 会 怀疑 在 有 一 个 恶性 肿瘤 的 情况 下 ， 可 能 会 得 到 一 些 非 常 极 端的 异常 
值 ， 因 为 肿瘤 的 生长 不 受 控制 。 然 而 ， 让 有 异常 值 在 距离 计算 中 占有 更 大 的 权重 有 可 能 是 合理 
的 。 让 我 们 来 看 看 z-score 标准 化 是 否 能 够 提高 预测 的 准确 性 。 

为 了 标准 化 一 个 向 量 ， 我们 可 以 使 用 R 内 置 的 scale () 函数 ， 该 图 数 默认 使 用 z-score 
标准 化 来 重新 调整 特征 的 值 。scale () 函数 提供 的 一 个 额外 好 处 就 是 它 能 够 直接 应 用 于 数 
据 框 ， 这 样 ， 我 们 可 以 避免 使 用 JapplLy() 函数 。 为 了 创建 一 个 wbcd 数据 的 z-score 标准 
化 版 本 ， 我 们 可 以 使 用 下 面 的 命令 ， 该 命令 重新 调整 除了 aiagnosis 以 外 的 所 有 特征 ， 并 
且 以 数据 框 的 形式 把 结果 存储 在 wbca_z 变量 中 ,后 级 _z 作为 一 个 提示 ， 即 特征 的 值 已 经 
进行 了 z-score 标准 化 。 

> whcd z <- as.data.frame (scale (wbcd[-1])) 


为 了 确认 转换 是 否 正确 ， 我 们 可 以 看 一 看 汇总 统计 量 : 


> summary (wbcd z$area mean) 
Min. lst Qu. Median Mean 3rd Qu. Max . 
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-1.4530 -0.6666 -0.2949 0.0000 0.3632 5.2460 

一 个 z-score 标准 化 后 的 变量 的 均值 应 该 始终 为 0 而且 其 值 域 应 该 非常 紧凑 ， 一 个 大 于 
3 或 者 小 于 -3 的 z-score 表示 一 个 极其 罕见 的 值 ， 上 面 的 汇总 似乎 是 合理 的 。 

正如 我 们 之 前 所 做 的 那样 ， 我 们 需要 将 数据 划分 为 训练 数据 集 和 测试 数据 集 ， 然 后 使 用 
knn() 函数 对 测试 实例 进行 分 类 ， 最 后 ,我 们 使 用 CrossTable () 函数 来 比较 预测 的 标签 
和 实际 的 标签 : 

> wbhcd train <- wbcd z[1:469，] 

> wbhcd test <- wbcd z[470:569, ] 

> wbcd train labels <- wbcda[1:469，1] 

> wbcd test labels <- wbcd[470:569, 1] 

> whcd test pred <- knnl(train = wbcd train, test = wbcd test, 

cl = wbcd train labels, k=21) 


> CrossTable(x = wbcd test labels, y = wbcd test pred, 
prop.chisq=FALSE) 


不 幸 的 是 ， 在 下 面 的 表格 中 ， 应 用 新 的 变换 得 到 的 结果 的 准确 性 略 有 降低 。 之 前 ,我 们 
正确 分 类 了 98% 的 案例 ， 而 这 一 次 我 们 仅 正确 分 类 了 95% 的 案例 。 更 糟糕 的 是 ， 我 们 并 没 
有 在 假 阴 性 (False Negative) 的 分 类 结果 上 做 得 更 好 。 


wbcd_test_pred 


| 

wbcd_test_labels | Benign | Malignant | Row Total | 
A et (EL Lr 
Benign | 61 | 0 | 61 | 
| 1.000 | 0.000 | 0.610 | 
| 0.924 | 0.000 | | 
| 0. 610 | 0.000 | | 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 | 一 一 一 一 一 一 一 一 一 一 一 | 一 一 一 一 一 一 一 一 一 一 一 | ------------ 
Malignant | | 34 | 39 | 

| 0.128 | 0.872 | 0.390 | 

| 0.076 | 1.000 | | 

| 0.050 | 0.340 | | 

Column Total | 66 | 34 | 100 | 

| 0.660 | 0.340 | | 


2. 测试 其 他 的 k 值 

或 许 ， 我 们 可 以 做 得 更 好 ， 即 检验 应 用 不 同 的 上 值 模型 的 性 能 。 使 用 min-max 标准 化 的 
训练 数据 集 和 测试 数据 集 ， 然 后 用 几 个 不 同 的 上 值 来 对 相同 的 100 个 记录 进行 分 类 。 每 次 从 
代 的 假 阴 性 (False Negative) 和 假 阳 性 (False Positive) 的 数量 如 下 表 所 示 ， 


k 值 假 阴性 的 数量 假 阳 性 的 数量 错误 分 类 的 比例 


5 | 到 
i om 
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虽然 分 类 器 永远 不 会 很 完美 , 但 是 1NN 算法 能 够 避免 一 些 假 阴性 ( False Negative) 的 结 
果 ， 不 过 是 以 增加 假 阳 性 (False Positive) 的 结果 为 代价 。 然 而 ， 重 要 的 是 记 住 ， 为 了 过 于 准 
确 预 测 测试 数据 来 调整 我 们 的 方法 是 不 明智 的 ， 毕 竟 ， 一 组 不 同 的 100 位 病人 记录 很 可 能 与 
那些 用 来 测量 我 们 模型 性 能 的 记录 有 所 不 同 。 


\ 如果 你 需要 确认 一 个 学 习 算 法 能 推广 到 未 来 的 数据 ， 那 么 你 可 能 需要 随机 地 
ab 弟 10 
章 将 深入 讨论 仔细 评估 机 器 学 习 模 型 性 能 的 方法 。 


3.3 总 结 


在 本 章 中 ， 我 们 学 习 了 使 用 k 近邻 进行 分 类 。 不 同 于 很 多 其 他 的 分 类 算法 ，kNN 并 没有 
进行 任何 学 习 ， 它 只 需要 逐 字 存储 训练 数据 。 然 后 使 用 一 个 距离 函数 将 未 标记 的 测试 案例 与 
训练 数据 集中 最 相似 的 记录 进行 匹配 ， 并 将 未 标记 案例 的 邻居 的 标签 分 配给 它 。 

尽管 事实 上 kNN 是 一 个 简单 的 算法 ,但 是 它 却 能 够 处 理 极 其 复杂 的 任务 ， 比 如 识别 癌 
细胞 的 肿块 。 用 简单 的 几 行 R 代码 ， 就 能 够 以 高 达 98% 的 正确 率 来 识别 一 个 肿块 是 恶性 的 
还 是 良性 的 。 

在 第 4 章 中 ， 我们 将 研究 使 用 概率 来 估计 一 个 观测 值 落 入 某 些 特定 类 别 中 的 分 类 方法 ， 
比较 该 方法 与 kNN 算法 有 何不 同 将 会 很 有 趣 。 之 后 ， 在 第 9 章 中 ,我 们 将 学 习 一 个 与 kNN 
算法 很 相似 的 算法 ， 该 方法 把 距离 度量 用 于 一 个 完全 不 同 的 学 习 任 务 中 。 
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概率 学 习 一 一 朴素 贝 叶 斯 分 类 


当 一 位 气象 学 家 提供 天 气 预 报时 ， 通 常会 使 用 像 “70% 的 可 能 性 会 下 十 ”这样 的 术语 来 
预测 降雨 ， 这 些 预 测 称 为 下 雨 的 概率 。 你 有 没有 想 过 他 们 是 如 何 计算 的 呢 ?” 这 是 一 个 让 人 困 
惑 的 问题 ， 因 为 在 现实 生活 中 ， 要 么 下 雨 ， 要 么 不 下 雨 。 

这 些 估计 都 是 基于 概率 方法 或 者 关于 描述 不 确定 性 的 方法 得 到 的 。 他 们 通过 对 过 去 已 发 
生 事件 的 数据 信息 来 推断 未 来 的 事件 。 在 天 气 预报 这 个 例子 中 ， 下 雨 的 可 能 性 描述 了 通过 类 
似 测量 大 气 条 件 的 方法 得 到 的 前 几 天 下 雨 的 概率 。 因 此 ，70% 下 雨 的 可 能 性 意味 着 ， 在 过 去 
有 类 似 天 气 特征 的 10 个 例子 中 ， 有 7 次 在 该 地 区 的 某 个 地 方 下 雨 了 。 

本 章 讲述 了 一 种 机 器 学 习 算 法 ， 即 依据 概率 原则 进行 分 类 的 朴素 贝 叶 斯 算法 。 正 如 气象 
学 家 预测 天 气 一 样 ， 朴 素 贝 叶 斯 算法 就 是 应 用 先前 事件 的 有 关 数 据 来 估计 未 来 事件 发 生 的 概 
率 。 举 个 例子 ， 朴 素 贝 叶 斯 的 一 个 常见 应 用 就 是 根据 过 去 垃圾 邮件 中 单词 使 用 的 频率 来 识别 
新 的 垃圾 邮件 。 在 学 习 朴 素 贝 叶 斯 是 如 何 应 用 时 ， 将 学 习 : 

口 用 于 朴素 贝 叶 斯 的 基本 概率 原则 。 

口 基于 R， 用 专门 的 方法 、 可 视 化 和 数据 结构 分 析 文 本 数据 。 

口 如 何 运用 朴素 贝 叶 斯 分 类 器 建立 短信 过 滤器 并 通过 R 实现 。 

如 果 你 之 前 已 经 上 过 统计 学 课程 ， 本 章 中 的 一 些 材料 看 上 去 可 能 是 对 统计 学 学 科 的 一 些 
回顾 。 即 便 如 此 ， 这 也 将 有 助 于 你 重新 整理 概率 知识 ， 而 且 这 些 原 则 也 是 “朴素 贝 叶 斯 ”如 
何 得 到 这 样 一 个 奇怪 名 称 的 依据 。 


4.1 理解 朴素 贝 叶 斯 
已 经 存在 了 几 百 年 的 基本 统计 学 思想 对 理解 朴素 贝 叶 斯 算法 是 必要 的 ， 该 算法 起 源 于 18 
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世纪 数学 家 托马斯 . 贝 叶 斯 ( Thomas Bayes) 的 工作 ， 托马斯 * 贝 叶 斯 发 明了 用 于 描述 事件 
的 概率 以 及 如 何 根据 附加 信息 修正 概率 的 基本 数学 原理 (现在 称 为 贝 叶 斯 方法 ) 

以 后 ， 我 们 将 会 进一步 深入 研究 ， 但 现在 知道 如 下 事实 就 够 了 : 一 个 事件 发 生 的 概率 是 
一 个 介 于 0 ~ 100% 之 间 的 数 。 在 给 定 现 有 证 据 的 条 件 下 ， 这 个 数 给 出 了 一 个 事件 将 发 生 的 
可 能 性 。 概 率 越 小 ， 事件 发 生 的 可 能 性 就 越 小 。 概 率 为 0 表示 事件 绝对 不 会 发 生 ， 而 概率 为 
100% 表示 事件 肯定 会 发 生 。 

基于 贝 叶 斯 方法 的 分 类 器 是 利用 训练 数据 并 根据 特征 的 取 值 来 计算 每 个 类 别 被 观察 到 的 
概率 。 当 分 类 器 之 后 被 应 用 到 无 标签 数据 时 ， 分 类 器 就 会 根据 观测 到 的 概率 来 预测 新 的 特征 
最 有 可 能 属于 哪个 类 。 这 是 简单 的 想法 ,但 根据 这 种 想法 就 产生 了 一 种 方法 ， 这 种 方法 得 到 
的 结果 与 很 多 复杂 算法 得 到 的 结果 是 等 价 的 . 事实 上 ， 贝 叶 斯 分 类 器 已 用 于 以 下 方面 : 

口 文本 分 类 ， 比 如 垃圾 邮件 过 滤 、 作 者 识别 和 主题 分 类 等 

口 在 计算 机 网 络 中 进行 人 侵 检测 或 者 异常 检测 

口 根据 一 组 观察 到 的 症状 ， 诊 断 身 体 状况 

通常 情况 下 ， 贝 叶 斯 分 类 器 最 适用 于 解决 这 样 一 类 问题 : 在 这 类 问题 中 ， 为 了 估计 一 个 
结果 的 概率 ， 从 众多 属性 中 提取 的 信息 应 该 被 同时 考虑 。 尽 管 很 多 算法 忽略 了 具有 弱 影响 的 
一 些 特征 ， 但 是 贝 叶 斯 方法 利用 了 所 有 可 以 获得 的 证 据 来 巧妙 地 修正 预测 。 如 果 有 大 量 特征 
产生 的 影响 较 小 ， 但 将 它们 放 在 一 起 ， 它 们 的 组 合影 响 可 能 会 相当 大 。 


4.1.1 贝 叶 斯 方法 的 基本 概念 

在 进入 朴素 贝 叶 斯 算法 学 习 之 前 ， 我 们 值得 花 一 些 时 间 来 定义 一 些 概念 ， 这 些 概念 在 贝 
叶 斯 方法 中 经 常用 到 。 用 一 句 话 概括 ， 贝 叶 斯 概率 理论 植 根 于 这 样 一 个 思想 ， 即 一 个 事件 的 
似 然 估计 应 建立 在 手中 已 有 证 据 的 基础 上 。 事 件 (event) 就 是 可 能 的 结果 ， 比 如 晴天 和 阴雨 
天 、 抛 抑 一 枚 硬币 得 到 的 正面 或 者 反面 、 垃 圾 电子 邮件 和 非 垃圾 电子 邮件 等 。 试 验 (trial) 就 
是 事件 发 生 一 次 的 机 会 ， 比 如 某 天 的 天 气 、 抛 掷 一 枚 硬币 、 一 封 电 子 邮件 等 。 


1. 概率 


一 个 事件 发 生 的 概率 可 以 通过 观测 到 的 数据 来 估计 ， 即 用 该 事件 发 生 的 试验 的 次 数 除 以 
试验 的 总 次 数 。 例 如 ， 如 果 10 天 中 有 3 天 下 十 了 ,那么 就 可 以 估计 下 十 的 概率 为 30%。 同 
样 ， 如 果 50 封 电 子 邮件 中 有 10 封 是 垃圾 邮件 ,那么 可 以 估计 垃圾 邮件 的 概率 为 20%。 通 常 
用 符号 P(4) 来 表示 事件 4 发 生 的 概率 ， 比 如 P( 垃圾 邮件 )=0.20。 

一 个 试验 的 所 有 可 能 结果 的 概率 之 和 一 定 为 100%。 因 此 ， 如 果 试 验 只 有 两 个 不 可 能 同 
时 发 生 的 结果 ， 比 如 硬币 的 正面 和 反面 、 垃 圾 邮件 和 非 垃 圾 邮件 ， 知 道 了 其 中 一 个 结果 发 生 
的 概率 就 意味 着 知道 了 另 一 个 结果 发 生 的 概率 。 例 如 ， 给 定 P( 垃圾 邮件 )=0.20， 我 们 就 能 够 
计算 出 P( 非 垃圾 邮件 )=1-P( 垃 圾 邮件 )=1-0.20=0.80。 之 所 以 可 以 这 样 计算 ， 是 因为 垃圾 邮 
件 和 非 垃 圾 邮件 是 两 个 完全 相互 独立 的 事件 ， 这 意味 着 垃圾 邮件 和 非 垃 圾 邮件 两 个 事件 不 可 
能 在 同一 时 间 发 生 ， 它 们 是 试验 仅 有 的 两 个 可 能 的 结果 。 为 了 简 记 ， 用 符号 P( 一 4) 来 表示 
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事件 4 不 发 生 的 概率 ， 例 如 P( 一 垃圾 邮件 )=0.80。 
作为 示例 ， 将 事件 概率 想象 为 一 个 两 维 空间 是 有 益 的 ， 该 空间 被 分 割 为 不 同事 件 的 概 
率 。 在 下 面 的 图 中 ， 和 矩形 代表 电子 邮件 所 有 可 能 发 生 
的 结果 的 集合 ， 其 中 的 圆 代表 垃圾 电子 邮件 的 概率 ， | 记 有 电子 邮件 | 
其 余 的 80% 代表 不 是 垃圾 电子 邮件 的 概率 。 


2. 联合 概率 

通常 ， 对 于 同一 试验 ,我 们 感 兴趣 的 是 对 几 个 非 
互 斥 事件 的 研究 。 如 果 一 些 发 生 的 事件 中 有 我 们 感 兴 
趣 的 事件 ， 或 许 我 们 可 以 用 它们 来 进行 预测 。 思 考 这 
样 一 个 例子 ， 第 二 个 事件 的 发 生 建立 在 电子 邮件 包含 单词 Viagra 事件 发 生 的 条 件 下 。 对 于 大 
多 数 人 来 说 ， 这 个 单词 只 可 能 出 现在 垃圾 邮件 中 ,因此 ， 在 信息 中 出 现 这 个 单词 是 说 明 该 电 
子 邮件 是 垃圾 邮件 的 一 个 非常 有 力 的 证 据 。 鉴 于 本 次 事件 的 发 生 ， 更 新 上 一 幅 图 形 ， 可 能 得 
到 如 下 图 左边 的 图 形 。 

注意 ， 在 该 图 中 ,含有 单词 Viagra 的 圆 没有 全 部 落 在 垃圾 邮件 的 圆 中 ， 也 没有 完全 包含 
垃圾 邮件 的 圆 。 这 表明 ， 不 是 所 有 的 垃圾 邮件 都 含有 单词 Viagra， 也 不 是 含有 单词 Viagra 的 
邮件 就 一 定 是 垃圾 邮件 。 

为 了 仔细 观察 垃圾 邮件 和 含有 单词 Viagra 的 邮件 之 间 的 重 肆 ， 我 们 将 其 放大 ， 应 用 可 视 
化 的 文 氏 图 (Ven Diagram)。 该 图 在 19 世纪 后 期 由 约翰 维 恩 (John Venn) 首先 使 用 ， 该 图 用 
圆 来 说 明 事 件 组 之 间 的 重 琶 。 在 大 多 数 文 氏 图 中 ， 比 如 下 右 图 ， 圆 的 大 小 和 重 又 的 程度 并 不 
重要 ， 只 是 用 这 样 一 种 方法 来 提醒 我 们 对 所 有 可 能 的 事件 组 合 来 分 配 概率 。 


所 有 的 邮件 










非 垃圾 邮件 





Viagra 
没有 Viagra 在 非 垃圾 邮件 中 
的 垃圾 邮件 


非 垃圾 邮件 
(80%) 








Viagra 在 垃圾 邮件 中 

我 们 知道 垃圾 邮件 占 所 有 电子 邮件 的 20% (左边 的 圆 )， 含 有 单词 Viagra 的 邮件 占 所 有 
电子 邮件 的 5% (右边 的 圆 )。 我 们 的 工作 就 是 量化 这 两 个 比例 之 间 的 重 全 程度， 换 句 话说 ， 
我 们 希望 估计 P( 垃圾 邮件 ) 和 P(Viagra) 同时 发 生 的 概率 ， 记 为 P( 垃圾 邮件 站 Viagra)。 

概率 P( 垃圾 邮件 Viagra) 的 计算 取决 于 这 两 个 事件 的 联合 概率 ， 即 如 何 将 一 个 事件 发 
生 的 概率 和 男 一 个 事件 发 生 的 概率 联系 在 一 起 。 如 果 这 两 个 事件 完全 不 相关 ， 我 们 称 为 独立 
事件 。 例 如 ， 抛 硬币 的 结果 与 天 气 是 晴天 还 是 阴雨 天 是 相互 独立 的 。 

如 果 所 有 的 事件 都 是 相互 独立 的 ， 利 用 已 经 获得 的 另 一 个 事件 的 数据 将 不 可 能 预测 任何 
一 个 事件 发 生 的 概率 ， 另 一 方面 ， 相 关 事 件 是 建立 预测 模型 的 基础 。 例 如 ， 根 据 云 的 存在 ， 
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很 有 可 能 预测 是 一 个 雨天 ; 根据 单词 Viagra 的 出 现 ， 预 测 电 子 邮 件 是 一 封 垃圾 邮件 。 

如 果 我 们 知道 P( 垃 圾 邮件 ) 和 P(Viagra) 是 相互 独立 的 ， 则 很 容易 计算 P( 垃圾 邮件 
nm Viagra)， 即 这 两 个 事件 同时 发 生 的 概率 。 由 于 在 所 有 电子 邮件 中 ，20% 为 垃圾 邮件 ，5% 
的 邮件 含有 单词 Viagra， 所 以 我 们 可 以 计算 20% 中 的 5% (0.05 x 0.20=0.01 )， 即 含有 单词 
Viagra 的 垃圾 邮件 占 所 有 电子 邮件 的 1%。 更 一 般 地 ， 对 于 独立 事件 4 和 事件 B， 这 两 个 事 
件 同时 发 生 的 概率 P(4  B)= P(4) x P(B)。 

在 现实 中 ，P( 垃圾 邮件 ) 和 P(Viagra) 更 可 能 是 高 度 相关 的 ， 因 此 上 述 计 算是 不 正确 的 ， 
我 们 需要 一 个 精确 的 公式 来 描述 这 两 个 事件 之 间 的 关系 。 


3. 基于 贝 叶 斯 定理 的 条 件 概率 
相关 事件 之 间 的 关系 可 以 用 贝 叶 斯 定理 来 描述 ， 如 下 面 的 公式 所 示 。 符 号 P(418) 表示 在 
事件 B 已 经 发 生 的 条 件 下 ,事件 4 发 生 的 概率 。 这 就 是 条 件 概率 ， 因 为 事件 4 发 生 的 概率 依 
赖 于 事件 8 的 发 生 ( 即 条 件 )。 
P(B14A)P(4) _P(4NB) 
W413) p(B) ~ P08) 
为 了 理解 贝 叶 斯 定理 在 实际 中 的 应 用 ， 可 以 假设 你 的 任务 是 估算 收 到 的 电子 邮件 是 垃圾 
邮件 的 概率 。 在 没有 任何 附加 证 据 的 条 件 下 ， 最 合理 的 猜测 就 是 事先 收 到 垃圾 邮件 的 概率 ， 
即 前 面 例子 中 的 20%， 这 个 估计 称 为 先 验 概率 。 
现在 ,假设 你 获得 了 一 条 额外 的 证 据 ， 你 被 告知 收 到 的 电子 邮件 使 用 了 单词 Viagra， 在 
先前 的 垃圾 邮件 中 出 现 单词 Viagra 的 概率 称 为 似 然 概率 ( likelihood)， 而 单词 Viagra 出 现在 
任何 一 封 邮件 中 的 概率 称 为 边际 似 然 概率 (marginal likelihood )。 
将 贝 叶 斯 定理 应 用 到 这 条 额外 的 证 据 上 ， 我 们 可 以 计算 后 验 概率 (posterior)， 这 个 概率 
用 来 衡量 该 邮件 是 垃圾 邮件 的 可 能 性 。 如 果 计 算出 的 后 验 概率 远大 于 50%， 则 该 信息 更 可 能 
是 垃圾 信息 ， 应 该 过 滤 掉 。 下 面 的 公式 就 是 对 于 给 定 证 据 的 贝 叶 斯 定理 : 





似 然 概率 、 和 
PepanlViagma)= 人 | ap 


Sy 
后 验 概率 a 
边际 似 然 概 率 
为 了 计算 贝 叶 斯 定理 中 每 一 个 组 成 部 分 的 概率 ， 我 们 必须 构造 一 个 频率 表 (如 下 面 的 左 
图 所 示 )， 该 表 记 录 了 单词 Viagra 出 现在 垃圾 邮件 和 非 垃 圾 邮件 中 的 次 数 。 与 双向 交叉 列表 
相似 ， 表 的 一 个 维度 表示 分 类 变量 的 水 平 (垃圾 邮件 或 者 非 垃 圾 邮件 )， 而 另 一 个 维度 表示 特 
征 的 水 平 ( 即 单词 Viagra 是 否 出 现 : Yes 或 No)， 表 中 的 元 素 表 示 具 有 分 类 值 和 特征 值 特定 
组 合 的 实例 的 数目 。 根 据 频率 表 ， 可 以 构造 似 然 表 ， 如 下 面 的 右 图 所 示 。 
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根据 似 然 表 ， 可 以 得 到 P(Viagra| 垃圾 邮件 ) = 4/20=0.20， 这 意味 着 在 垃圾 邮件 中 ,含有 
单词 Viagra 的 邮件 的 概率 为 20%。 此 外 ， 根 据 定理 P(B|4) x P(4) = P(4 mn 8), 我们 可 以 计算 
P (垃圾 邮件 站 Viagra)， 即 

P (Viagra| 垃圾 邮件 ) xP (垃圾 邮件 ) =(4/20) x (20/100)=0.04 

此 次 的 估计 值 是 先前 在 错误 的 独立 性 假设 下 估计 值 的 4 倍 , 它 说 明了 贝 叶 斯 定理 在 计算 
联合 概率 中 的 重要 性 。 

为 了 计算 后 验 概率 已 (垃圾 邮件 |Viagra)， 我 们 利用 贝 叶 斯 定理 ， 即 
P (垃圾 邮件 |Viagra) =P (Viagra| 垃圾 邮件 ) xP (垃圾 邮件 ) /P (Viagra) =(4/20) x (20/100)/(5/100)=0.8 

因此 ， 如 果 电 子 邮 件 含 有 单词 Viagra， 那 么 该 电子 邮件 是 垃圾 邮件 的 概率 为 80%。 所 
以 ， 任 何 含 有 单词 Viagra 的 消息 都 需要 被 过 滤 掉 。 

这 就 是 商业 垃圾 邮件 过 滤器 的 工作 方式 ， 尽 管 在 计算 频率 表 和 似 然 表 时 会 同时 考虑 更 多 
数目 的 词语 。 在 下 一 节 中 ， 我 们 将 看 到 当 有 额外 的 特征 时 ， 这 一 概念 是 如 何 被 使 用 的 。 


4.1.2 ”朴素 贝 叶 斯 算法 


朴素 贝 叶 斯 (Naive Bayes，NB ) 算法 描述 应 用 贝 叶 斯 定理 进行 分 类 的 一 个 简单 应 用 。 尽 
管 这 不 是 唯一 应 用 贝 叶 斯 方法 的 机 器 学 习 方 法 ,但 它 是 最 常见 的 ， 尤 其 在 文本 分 类 应 用 中 已 
经 成 为 一 种 准则 。 该 算法 的 优 缺 点 如 下 表 所 示 。 

优点 缺点 

依赖 于 一 个 常用 的 错误 假设 ， 即 一 样 的 重要 性 和 独 
立 特征 
应 用 在 含有 大 量 数值 特征 的 数据 集 时 并 不 理想 
。 概率 的 估计 值 相对 于 预测 的 类 而 言 更 加 不 可 靠 


。 简单、 快速、 有效 

。 能 处 理 好 噪声 数据 和 缺失 的 数据 

e 需要 用 来 训练 的 例子 相对 较 少 ， 但 同样 能 处 理 好 大 量 
的 例子 

se 很 容易 获得 一 个 预测 的 估计 概率 值 


朴素 贝 叶 斯 算法 之 所 以 这 样 命名 是 因为 关于 数据 有 一 对 “简单 ”的 假设 。 特 别 地 ， 朴 素 
贝 叶 斯 假设 数据 集 的 所 有 特征 都 具有 相同 的 重要 性 和 独立 性 ， 而 在 大 多 数 的 实际 应 用 中 ， 这 
些 假设 是 鲜 有 成 立 的 。 

举 个 例子 ， 假 设 你 试图 通过 监控 电子 邮件 来 识别 垃圾 邮件 ， 那 么 几乎 可 以 肯定 ， 邮 件 
中 的 某 些 特征 比 其 他 特征 更 重要 。 比 如 ， 相 对 邮件 内 容 来 说 ， 电 子 邮 件 的 发 件 人 是 判别 垃圾 
邮件 的 一 个 更 重要 的 指标 。 而 且 ， 出 现在 邮件 主体 中 的 词 和 主体 中 的 其 他 词 并 不 是 相互 独立 
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的 ， 因 为 有 些 词 的 出 现 正好 暗示 着 其 他 词 很 可 能 出 现 。 一 封 含 有 单词 Viagra 的 邮件 有 极 大 的 
可 能 包含 单词 prescription 或 者 drug。 

然而 ， 在 大 多 数 情况 下 ， 当 违背 这 些 假 设 时 ， 朴 素 贝 叶 斯 依然 可 以 很 好 地 应 用 ， 甚 至 
在 极端 事件 中 ， 特 征 之 间 具 有 很 强 的 依赖 性 时 ， 朴 素 贝 叶 斯 也 可 以 用 。 由 于 该 算法 的 通用 性 
和 准确 性 ， 适 用 于 很 多 类 型 的 条 件 ， 所 以 在 分 类 学 习 任 务 中 ， 朴 素 贝 叶 斯 算法 往往 是 很 强大 
的 ， 排 在 候选 算法 的 第 一 位 。 


为 什么 在 错误 的 假设 条 件 下 ， 朴 素 贝 叶 斯 算法 还 能 有 效应 用 呢 ? 关于 其 准确 
性 的 原因 存在 很 多 推测 ， 一 种 解释 是 : 只 要 预测 的 分 类 值 是 准确 的 ， 那 么 获 
”得 精确 的 概率 估计 值 并 不 重要 。 例 如 ， 如 果 垃 圾 邮件 过 滤器 能 正确 识别 垃圾 
人 邮件 ， 那 么 在 其 预测 时 ， 它 是 有 51% 的 把 握 ， 还 是 有 99% 的 把 握 ， 这 还 重 
要 吗 ? 关于 这 一 节 更 多 的 信息 ， 可 参阅 Pedro Domingos 和 Michael Pazzani 
关于 机 器 学 习 的 文献 “On the optimality of the simple Bayesian classifier under 


Zero-one loss in Machine Learning ” (1997) 


1. 朴素 贝 叶 斯 分 类 

我 们 通过 增加 对 词语 Money 、Groceries 和 Unsubscribe 的 监测 来 改善 我 们 的 垃圾 邮件 过 
滤器 。 我 们 可 以 通过 构建 出 现 的 这 4 个 单词 ( 记 为 W1、W2、W3 和 W4 ) 的 似 然 表 来 训练 朴 
素 贝 叶 斯 算法 ， 对 100 封 电 子 邮 件 分 析 后 的 似 然 表 如 下 表 所 示 。 


| 


| 非 垃圾 邮件 | 180 7980 | 14/80 66/80 | 8/80 ?7180 | 2380 5780 | 80 | 
| 
在 收 到 新 的 消息 后 ， 给 定 文 本 信息 中 这 些 单词 的 似 然 ， 必 须 通 过 计算 后 验 概率 来 确定 这 
些 消息 更 像 是 垃圾 邮件 还 是 非 垃圾 邮件 。 例 如 ， 有 一 条 消息 包含 单词 Viagra 和 Unsubscribe， 
但 是 不 包含 Money 和 Groceries。 
利用 贝 叶 斯 定理 ,我 们 可 以 定义 这 个 问题 的 概率 一 一 一 封 邮件 在 给 定 Viagra = Yes， 
Money = No,Groceries = No 和 Unsubscribe = Yes 条 件 下 为 垃圾 邮件 的 概率 ， 如 下 面 公式 所 示 。 





已 ( 历 站 一 静 站 一 政和 月 下 | 垃圾 则 立 圾 由 
TT A A APea Le mds ds a 本 人 


有 很 多 原因 使 这 个 公式 在 计算 上 难以 解决 。 由 于 额外 特征 信息 的 增加 ， 需 要 巨大 的 内 存 
来 存储 所 有 可 能 的 交叉 事件 的 概率 ， 想 象 出 现 4 个 单词 事件 的 文 氏 图 的 复杂 性 ， 更 不 用 说 数 
百 个 甚至 更 多 事件 发 生 的 复杂 性 ， 为 此 ， 我 们 需要 巨大 的 训练 数据 集 确保 有 足够 的 数据 来 对 
所 有 的 可 能 交叉 事件 建 模 。 
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如 果 我 们 可 以 利用 朴素 贝 叶 斯 中 事件 独立 性 的 假设 ,那么 计算 将 会 变 得 很 简单 ， 具 体 来 
说 ， 朴 素 贝 叶 斯 假设 类 条 件 独立 ( class-conditional independence )， 这 意味 着 只 要 事件 在 相同 
类 取 值 的 条 件 下 ， 这 些 事件 就 是 相互 独立 的 。 条 件 独 立 性 的 假设 允许 我 们 应 用 独立 事件 的 概 
率 原 则 来 简化 计算 公式 。 此 时 ， 你 可 能 会 想到 公式 P(4 mn 8) = P(4) x P(B)， 于 是 我 们 可 以 得 
到 一 个 更 加 容易 计算 的 公式 ， 如 下 所 示 : 

P( 垃 圾 邮件 | W 由 一 所 门 一 扶 站 到,) 
P( 所 垃圾 邮件 )P( 一 FW 垃圾 邮件 )P( 丙 垃圾 邮件 )P( 现 垃圾 邮件 )P( 垃 圾 邮件 ) 
P(W)P(W)P(aW) P(W,) 
与 此 公式 进行 比较 ,我 们 可 以 得 到 关于 非 垃圾 邮件 概率 的 公式 : 


P( 非 垃圾 邮件 | 于 / 门 一 W 门 一 所 门 抑 ) 
_ P(r | 非 垃圾 邮件 )P( 一 所 | 非 垃圾 邮件 )P( 珊 | 非 垃圾 邮件 )P( 一 后 | 非 垃圾 邮件 )P( 非 垃圾 邮件 ) 
P(W)P(-—W)P(-—W)P(W,) 
利用 似 然 表 中 的 数据 ， 我 们 就 可 以 为 这 些 公式 填充 数值 ， 由 于 这 两 个 公式 中 的 分 母 是 一 
样 的 ， 所 以 现在 可 以 忽略 它 。 垃 圾 邮件 的 总 似 然 为 : 
(4/20) x (10/20) x (20/20) x (12/20) x (20/100) = 0.012 
在 给 定 模型 下 ， 非 垃圾 邮件 的 总 似 然 为 : 
(1/80) x (66/80) x (71/80) x (23/80) x (80/100) = 0.002 
因为 0.012 / 0.002 = 6， 所 以 我 们 可 以 认为 该 消息 是 垃圾 邮件 的 可 能 性 是 非 垃 圾 邮件 的 6 
倍 ， 即 更 有 可 能 是 垃圾 邮件 。 然 而 ， 将 这 些 数值 转换 成 概率 ， 我 们 还 需要 最 后 一 步 。 
该 消息 是 垃圾 邮件 的 概率 等 于 该 消息 是 垃圾 邮件 的 似 然 除 以 该 消息 是 垃圾 邮件 或 非 垃圾 
邮件 的 总 似 然 ， 即 
0.012/ (0.012 + 0.002) = 0.857 
同样 ， 该 消息 是 非 垃 圾 邮件 的 概率 等 于 该 消息 是 非 垃圾 邮件 的 似 然 除 以 该 消息 是 垃圾 邮 
件 或 非 垃圾 邮件 的 总 似 然 ， 即 
0.002 /(0.012 + 0.002) = 0.143 
给 定 该 消息 中 4 个 单词 出 现 的 情况 ， 我 们 期 望 该 消息 是 垃圾 邮件 的 概率 为 85.7%， 是 非 
垃圾 邮件 的 概率 为 14.3%， 因 为 这 两 个 事件 是 完全 相 斥 事件 ， 所 以 它们 的 概率 之 和 为 1. 
我 们 在 前 面 的 例子 中 使 用 的 朴素 贝 叶 斯 分 类 算法 可 以 总 结 为 如 下 的 公式 。 从 本 质 上 讲 ， 
在 给 定 特 征 Fi 到 ,提供 的 证 据 的 条 件 下 ， 类 C 中 水 平 为 工 的 概率 等 于 每 一 条 证 据 在 类 C 的 
水 平 工 下 的 条 件 概率 的 乘积 ， 再 乘 以 类 C 的 水 平 工 的 先 验 概率 和 尺度 因子 1Z， 尺 度 因子 1/Z 
将 把 上 述 结 果 转 换 为 一 个 概率 值 : 
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”2. 拉 普 拉 斯 估计 

让 我 们 再 看 一 个 例子 ， 假 设 我 们 收 到 另 一 条 消息 ， 这 一 次 该 消息 包含 的 单词 有 : Viagra、 
Money 、Groceries 和 Unsubscribe。 利 用 之 前 的 贝 叶 斯 算法 ， 我 们 可 以 计算 垃圾 邮件 的 似 然 
如 下 : 

(4/20) x (10/20) x (0/20) x (12/20) x (20/100) = 0 
非 垃 圾 邮件 的 似 然 为 : 
(1/80) x (14/80) x (8/80) x (23/80) x (80/100) = 0.000 05 
因此 ， 该 消息 是 垃圾 邮件 的 概率 为 : 
0/(0+0.0099)=0 
该 消息 是 非 垃 圾 邮件 的 概率 为 : 
0.000 05/ (0+0.00005)=1 

这 些 结 果 表 明 该 消息 是 垃圾 邮件 的 概率 为 0， 是 非 垃 圾 邮件 的 概率 为 100%。 这 样 的 预测 
结果 有 意义 吗 ? 很 可 能 没有 意义 。 这 条 消息 含有 一 些 经 常 与 垃圾 邮件 联系 在 一 起 的 单词 ， 包 
括 Viagra， 而 这 在 合法 的 邮件 中 是 非常 罕见 的 ， 因 此 该 消息 很 可 能 被 错误 地 分 类 了 。 

对 于 类 中 一 个 或 多 个 水 平 ， 如 果 一 个 事件 从 来 没有 发 生 过 ， 就 有 可 能 出 现 这 样 的 问题 。 例 
如 ， 单 词 Groceries 之 前 从 来 没有 出 现在 垃圾 邮件 信息 中 ， 因 此 ，P (垃圾 邮件 |groceries) =0。 

由 于 在 贝 叶 斯 算法 中 ， 概 率 值 是 相 乘 的 ， 所 以 概率 为 0 的 值 将 导致 该 消息 是 垃圾 邮件 的 
后 验 概 率 值 为 0， 即 单词 Groceries 能 有 效 抵消 或 否决 所 有 其 他 的 证 据 。 即 使 该 邮件 很 有 可 
能 被 预测 为 垃圾 邮件 ， 但 是 由 于 没有 出 现 单词 Groceries 就 导致 了 该 邮件 为 垃圾 邮件 的 概率 
为 0。 

这 个 问题 的 解决 涉及 使 用 一 种 叫做 拉 普 拉 斯 估计 ( Laplace estimator) 的 方法 ,该 方法 是 
以 法 国 数学 家 皮 埃 尔 - 西蒙 斯 拉 普 拉 斯 ( Pierre-Simon Laplace ) 的 名 字 命 名 的 。 拉 普 拉 斯 
估计 本 质 上 是 给 频率 表 中 的 每 个 计数 加 上 一 个 较 小 的 数 ， 这 样 就 保证 了 每 一 类 中 每 个 特征 发 
生 的 概率 是 非 零 的 。 通 常情 况 下 ， 拉 普 拉 斯 估计 中 加 上 的 数值 设 定 为 1， 这 样 就 保证 每 一 类 
特征 的 组 合 至 少 在 数据 中 出 现 一 次 。 


拉 普 拉 斯 估计 增加 的 数值 可 以 设置 为 任何 一 个 值 ， 甚 至 没有 必要 为 每 一 个 特 
征 设 置 相同 的 值 。 如 果 你 很 热衷 于 贝 叶 斯 方法 ， 你 可 以 用 拉 普 拉 斯 估计 来 反 
映 一 个 事先 假定 的 先 验 概率 ， 这 个 概率 是 有 关 特 征 和 类 之 间 的 联系 。 在 实际 
应 用 中 ， 在 给 定 一 个 足够 大 的 训练 数据 集 时 ， 这 个 步骤 是 不 必要 的 ， 而 且 几 
乎 总 是 设 定 其 增加 的 数值 为 1。 


AL 


be 


下 面 观察 拉 普 拉 斯 估计 如 何 影 响 我 们 对 该 消息 的 预测 结果 。 取 拉 普 拉 斯 值 为 1， 我 们 对 
每 一 个 似 然 函 数 的 分 子 加 上 1， 对 分 母 加 上 分 子 中 加 上 的 1 的 总 数 。 因 此 ， 我 们 得 到 垃圾 邮 
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件 的 似 然 为 ; 
(5/24) x (11/24) x (1/24) x (13/24) x (20/100) = 0.0004 
非 垃圾 邮件 的 似 然 为 : 
(2/84) x (15/84) x (9/84) x (24/84) x (80/100) = 0.0001 
这 表明 该 消息 是 垃圾 邮件 的 概率 为 80%， 是 非 垃圾 邮件 的 概率 为 20%， 显 然 ， 这 个 结果 
比 由 单词 Groceries 单独 决定 结果 更 合理 。 


3. 在 朴素 贝 叶 斯 算法 中 使 用 数值 特征 

由 于 朴素 贝 叶 斯 算法 使 用 学 习 数 据 的 频率 表 ， 所 以 为 了 创建 类 和 特征 值 的 组 合 所 构成 的 
矩阵， 每 个 特征 必须 是 分 类 变量 。 因 为 数值 型 特征 没有 类 别 值 ， 所 以 之 前 的 算法 不 能 直接 应 
用 于 数值 型 数据 。 然 而 ， 有 一 些 方法 可 以 解决 这 个 问题 。 

一 个 简单 而 有 效 的 方法 就 是 将 数值 型 特征 值 离散 化 ， 这 就 意味 着 将 数值 分 到 不 同 的 分 段 
( bin) 中 ， 这 些 分 段 就 是 离散 化 的 类 的 水 平 。 基 于 这 个 原因 ， 离 散 化 有 时 也 称 为 分 段 。 应 用 
朴素 贝 叶 斯 算法 的 一 个 通常 条 件 是 具有 大 量 的 训练 数据 ， 这 时 分 段 的 方法 是 理想 的 。 

另外 ， 还 有 几 种 不 同 的 方法 可 以 将 数值 型 特征 离散 化 。 也 许 ， 最 常见 的 方法 就 是 探索 用 
于 自然 分 类 的 数据 或 者 数据 分 布 中 的 分 割 点 。 假 设 你 对 垃圾 邮件 数据 集 增 加 了 一 个 特征 ， 该 
特征 就 是 记录 了 这 封 邮件 在 夜间 或 者 白天 发 送 的 时 间 ， 它 是 从 0 点 到 午夜 24 点 。 

如 下 面 的 直方 图 所 示 ， 上 述 时 间 数 据 看 上 去 可 能 类 似 于 下 图 。 在 凌晨 ， 邮 件 发 送 的 频率 
很 低 ; 在 营业 期 间 ， 邮 件 发 送 活动 逐渐 增加 ， 到 了 晚上 ， 发 送 活动 逐渐 减少 。 于 是 ， 我 们 就 
可 以 创建 4 个 活动 时 间 的 自然 分 段 ， 在 图 中 虚线 的 地 方 即 为 分 割 点 。 这 样 ， 数 值 型 数据 就 可 
以 划分 到 新 的 名 义 特 征 的 不 同 水 平 中 。 这 样 ， 我 们 就 可 以 应 用 朴素 贝 叶 斯 算法 。 


邮件 的 个 数 





一 天 的 时 间 
记 住 ， 基 于 数据 的 自然 分 布 和 一 天 中 垃圾 邮件 的 比例 可 能 会 随时 发 生变 化 的 预感 ， 这 4 
个 分 段 的 选择 某 种 程度 上 是 随意 的 。 我 们 可 能 期 待 垃圾 邮件 的 发 送 者 是 在 深夜 时 操作 的 ; 或 
者 是 在 白天 ， 当 人 们 可 能 在 检查 邮件 时 ， 此 时 他 们 可 能 会 进行 垃圾 邮件 的 发 送 。 所 以 ， 为 了 
捕 提 上 述 的 趋势 ,我们 可 以 很 简单 地 使 用 3 个 分 段 或 者 12 个 分 段 。 
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\， ”如 果 没有 很 明显 的 分 割 点 ， 一 种 选择 就 是 利用 分 位 数 将 数值 型 特征 离散 化 。 
be eae dn ae a ane 
4 个 分 段 中 ， 利 用 五 分 位 数 将 数据 划分 到 5 个 分 段 中 。 


有 一 点 需要 记 住 ， 将 数值 特征 离散 化 总 是 会 导致 信息 量 的 减少 ， 因 为 特征 的 原始 粒度 减 
少 为 几 个 数目 较 少 的 类 别 。 在 处 理 这 个 问题 时 ， 重 要 的 是 取得 平衡 ， 因 为 太 少 的 分 段 会 导致 
重要 的 趋势 被 掩盖 ， 而 太 多 的 分 段 会 导致 朴素 贝 叶 斯 频率 表 中 的 计数 值 很 小 。 


4.2 ”例子 一 一 基于 贝 叶 斯 算法 的 手机 垃圾 短信 过 滤 


随 着 全 球 手机 使 用 量 的 增长 ， 一 种 创造 垃圾 电子 邮件 的 新 途径 已 经 为 声名 狼藉 的 营销 市 
场 开放 了 。 这些 广 告 商 利用 短信 服务 (SMS) 文本 信息 ， 以 潜在 消费 者 为 目标 ， 给 他 们 发 送 不 
需要 的 广告 ， 即 垃圾 短信 。 这 种 类 型 的 垃圾 短信 特别 麻烦 ， 它 与 垃圾 邮件 不 同 ， 因 为 许多 手 
机 用 户 需 要 为 收 到 的 每 一 条 短信 付费 。 研 究 一 种 可 以 过 滤 垃圾 短信 的 分 类 算法 ， 将 会 给 移动 
电话 供应 商 提供 一 种 很 有 用 的 工具 。 

因为 朴素 贝 叶 斯 已 经 成 功 应 用 于 垃圾 邮件 的 过 滤 ， 所 以 它 很 可 能 也 可 以 应 用 于 垃圾 短信 
的 过 滤 ， 然 而 ， 相 对 于 垃圾 邮件 来 说 ， 垃 圾 短信 的 自动 过 滤 有 着 额外 的 挑战 。 由 于 短信 通常 
限制 为 160 个 字符 ， 所 以 可 以 用 来 确定 一 条 消息 是 否 是 垃圾 消息 的 文本 量 减少 了 ， 这 种 限制 
与 小 的 不 方便 的 手机 键盘 一 起 ， 导 致 很 多 人 采用 短信 术语 简写 的 形式 ， 这 进一步 模糊 了 合法 
消息 和 垃圾 消息 的 界限 。 让 我 们 看 一 看 一 个 简单 的 朴素 贝 叶 斯 分 类 器 如 何 处 理 好 这 些 问 题 带 
来 的 挑战 。 


4.2.1 第 1 步 一 一 收集 数据 
为 了 扩展 朴素 贝 叶 斯 分 类 器 ， 我 们 将 使 用 从 网 站 http://www.dt.fee.unicamp.br/~tiago/sms- 
spamcollection/ 收集 的 垃圾 短信 改编 的 数据 。 


要 了 解 更 多 关于 垃圾 短信 的 收集 ， 可 以 参考 作者 发 表 的 文章 : On the Validity 
LE ofaNew SMS Spam Collection by J.M. Gomez Hidalgo, T.A. Almeida and A. 
~ 一 Yamakami in Proceedings of the 11th IEEE International Conference on Machine 





Learning and Applications (2012)。 


该 数据 集 包 含 短信 的 文本 信息 ， 而 且 带 有 表明 该 短信 和 是 否 为 垃圾 短信 的 标签 。 垃 圾 短信 
标记 为 spam， 而 非 垃圾 短信 标记 为 ham。 在 下 面 的 例子 中 有 一 些 关于 垃圾 短信 和 非 垃圾 短信 
的 例子 。 

下 面 是 一 些 非 垃圾 短信 的 例子 : 


Better Made up for Friday and stuffed myself like a pig yesterday. Now I feel bleh. But at least 
its not writhing pain kind of bleh. 


wwaibbt.com DODODDODODOD 


第 4 章 “概率 学 习 一 一 朴素 贝 叶 斯 分 类 42* 71 


If he started searching he will get job in few days. He have great potential 
and talent. 


I got another job! The one at the hospital doing data analysis or something, starts on monday! 
Not sure when my thesis will got fnished 

下 面 是 一 些 垃圾 短信 的 例子 : 

Congratulations ur awarded 500 of CD vouchers or 125gift guaranteed & Free entry 2 100 wkly 
draw txt MUSIC to 87066 


December only! Had your mobile 11mths+? You are entitled to update to the latest colour 
camera mobile for Free! Call The Mobile Update Co FREE on 08002986906 


Valentines Day Special! Win over £1000 in our quiz and take your partner on the trip of a 

lifetime! Send GO to 83600 now. 150p/msg rcvd. 

看 到 前 面 的 短信 示例 ， 你 是 否 注意 到 垃圾 短信 的 显著 特点 吗 ? 一 方面 ， 一 个 显著 特点 是 
3 条 垃圾 短信 中 有 2 条 短信 使 用 了 单词 fee， 但 该 单词 没有 出 现在 任何 一 条 非 垃 圾 短信 中 。 
男 一 方面 ， 与 垃圾 短信 相 比 ， 有 2 条 非 垃 圾 短信 引用 了 一 周 中 具体 的 某 一 天 ， 而 垃圾 短信 中 
没有 一 条 引用 。 

我 们 的 朴素 贝 叶 斯 分 类 器 将 利用 词 频 中 这 种 模式 的 优势 来 确定 短信 消息 是 更 像 垃 圾 短信 
还 是 非 垃圾 短信 。 尽 管 可 以 想象 单词 “free” 可 以 出 现在 非 垃圾 短信 中 ， 但 是 一 条 合法 的 短 
信 很 有 可 能 会 根据 上 下 文 提供 额外 的 单词 信息 。 例 如 ， 一 条 非 垃 圾 短信 可 能 会 这 样 陈述 “ are 
you free on Sunday?”; 而 一 条 垃圾 短信 可 能 会 使 用 这 样 的 短语 “free ringtones”。 朴 素 贝 叶 斯 
分 类 器 将 根据 短信 中 所 有 单词 提供 的 证 据 计 算 垃圾 短信 和 非 垃圾 短信 的 概率 。 


4.2.2 ”第 2 步 一 一 探索 和 准备 数据 

构建 分 类 器 的 第 一 步 涉 及 原始 数据 的 处 理 与 分 析 ， 文 本 数据 的 准备 具有 挑战 性 ， 因 为 将 
词 和 句子 转化 成 计算 机 能 够 理解 的 形式 是 很 必要 的 。 我 们 将 把 数据 转化 成 一 种 称 为 词 袋 (bag- 
of-words) 的 表示 方法 ， 这 种 表示 方法 忽略 了 单词 出 现 的 顺序 ， 只 是 简单 地 提供 一 个 变量 用 来 
表示 单词 是 否 会 出 现 。 
为 了 使 数据 可 以 在 及 中 方便 地 应 用 ， 这 里 所 使 用 的 数据 已 经 对 原始 数据 进行 
了 修正 。 如 果 你 想 跟着 一 起 运行 这 个 例子 ， 可 以 从 网 站 下 载 sms_spam.csv 
文件 ， 并 将 其 保存 到 R 的 工作 目录 下 面 。 


AL 


i 


我 们 首先 使 用 read .csv() 函数 导 信 上述 CSV 数据 ， 将 其 保存 到 以 sms_raw 命名 的 
数据 文件 中 。 


> sms raw <- read.csv("sms spam.csv", stringsAsFactors = FALSE) 


使 用 数据 结构 探索 函数 str () ， 可 以 看 到 sms_raw 数据 文件 包含 了 5559 条 短信 ， 每 
条 短信 都 有 两 个 特征 : type 和 text。 将 SMS 的 特征 type 编码 为 ham 或 者 spam， 而 变 
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量 text 存储 整个 SMS 短信 文本 。 


> strl(sms_ raw) 

data.frame': 5559 obs. of 2 variables: 

$ type: chr "ham" "ham" "ham" "spam" ... 

$ text: chr '""Hope you are having a good week. Just checking in'" '"K.. 
give back my thanks." '"Am also doing in cbe only. But have to pay." 
"complimentary 4 STAR Ibiza Holiday or £10,000 cash needs your URGENT 
collection. 09066364349 NOW from Landline not to lose out"| _ truncated _ 


当前 的 变量 type 是 一 个 字符 串 向 量 。 由 于 它 是 一 个 分 类 变量 ， 所 以 将 其 转换 成 一 个 因 
子 将 会 更 好 ， 如 下 面 的 代码 所 示 : 

> sms raws$stype <- factorl(sms rawstype) 

用 函数 str () 和 table () 研究 变量 type， 可 以 看 到 该 变量 已 经 被 很 好 地 重新 编码 为 
一 个 因子 。 此 外 ， 可 以 看 到 数据 中 有 747 条 ，( 即 大 约 13%) 短信 被 标记 为 spam， 其 余 的 短 
信 被 标记 为 ham。 

> str(sms raw$type) 

Factor w/ 2 levels "ham","spam": 1 1 12211121... 
> table(sms_ raws$type) 


ham spam 
4812 747 


现在 ， 我 们 先 不 研究 变量 text。 你 将 在 下 一 节 中 学 习 ， 因 为 处 理 原始 短信 和 需要 使 用 一 
套 新 的 专门 用 于 处 理 文本 数据 的 功能 强大 的 工具 。 


4.2.3 ”数据 准备 一 一 处 理 和 分 析 文 本 数据 

短信 就 是 由 词 、 空 格 、 数 字 和 标点 符号 组 成 的 文本 字符 串 。 处 理 这 种 类 型 的 复杂 数据 
需要 大 量 的 思考 和 工作 ， 一 方面 需要 考虑 如 何 去 除 数字 和 标点 符号 ， 如 何 处 理 没 有 意义 的 单 
词 ， 如 and、but 和 or 等， 以 及 如 何 将 句子 分 解 成 单个 的 单词 。 幸 运 的 是 ，R 社区 的 成 员 已 
经 在 文本 挖掘 添加 包 tm 中 提供 了 这 些 功 能 。 

， 添加 包 tm 最 初 是 由 维也纳 财经 大 学 (Vienna University of Economics and 
KY 、 Business) 的 Ingo Feinerer 作为 一 个 论文 项 目 创建 的 。 如 果 想 了 解 这 个 添加 
包 的 更 多 知识 ， 你 可 以 访问 网 站 http://tm.r-forge.r-project.org/。 


可 以 通过 命令 instal1.packages("tm") 安装 tm 文本 挖掘 添加 包 ， 并 应 用 命令 
library (tm) 进行 加 载 。 

处 理 文本 数据 的 第 一 步 涉 及 创建 一 个 语料库 ， 即 一 个 文本 文件 的 集合 。 在 我 们 的 例子 中 ， 
一 个 文本 文件 就 是 指 一 条 短信 ， 我 们 通过 下 面 的 命令 建立 一 个 包含 训练 数据 中 短信 的 语料库 。 

> sms_corpus <- Corpus (VectorSource (sms raw$text)) 

这 条 命令 使 用 了 两 个 函数 。 首 先 ， 函 数 Corpus () 创建 了 一 个 R 对 象 来 存储 文本 文档 。 
这 个 函数 通过 一 个 参数 来 指定 所 加 载 的 文本 文档 的 格式 。 因 为 我 们 已 经 把 短信 读 人 R 并 存储 
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在 一 个 向 量 中 ， 所 以 我 们 用 函数 VectorSsource () 来 指示 函数 Corpus () 使 用 向 量 sms_ 
trains$text 的 信息 。 函 数 Corpus () 将 结果 存储 在 一 个 名 为 sms_corpus 的 对 象 中 。 


a 函数 Corpus () 非常 灵活 ， 可 以 读 入 很 多 不 同 来 源 的 文档 ， 比 如 PDF 和 
Q Microsoft Word 文档 。 要 了 解 更 多 信息 ， 可 以 通过 命令 print (vignette 
("tm") ) 查看 tm 添加 包 中 Data Import (数据 导入 ) 部 分 的 简介 。 


如 果 我 们 用 函数 print () 输出 我 们 刚刚 创建 的 语料库 ， 我 们 将 会 看 到 该 语料库 包含 了 
训练 数据 中 5559 条 短信 的 每 一 条 短信 。 


> print (sms_corpus) 
A corpus with 5559 text documents 


如 果 要 查看 语料库 的 内 容 ， 可 以 使 用 函数 inspect () 。 将 该 函数 与 访问 向 量 的 方法 结 
合 在 一 起 ， 可 以 查看 具体 的 短信 内 容 。 下 面 的 命令 就 是 查看 第 一 、 二 、 三 条 短信 的 具体 内 容 : 
> inspect (sms_corpus[1:3]) 


[LA 
Hope you are having a good week. Just checking in 


[[2]] 
K..give back my thanks . 


[[3]] 
Am also doing in cbe only. But have to pay. 


语料库 现在 包含 5559 条 短信 的 原始 文本 内 容 。 在 将 文本 内 容 分 解 成 单词 之 前 ， 我 们 需 
要 进行 一 些 清 理 步 骤 以 去 除 标点 符号 和 可 能 会 影响 结果 的 其 他 字符 。 例 如 ， 我 们 将 把 单词 
he1l1ol、HELLO.…… 和 Hello 都 作为 单词 hello 的 实例 。 

函数 tm_map () 提供 了 一 种 用 来 转换 ( 即 映射 ) tm 语料库 的 方法 。 我 们 将 使 用 一 系列 
转换 函数 来 清理 我 们 的 语料库 ， 并 将 结果 保存 为 一 个 叫做 corpus_clean 的 新 对 象 。 

首先 ， 我 们 将 把 所 有 短信 的 字母 变 成 小 写字 母 ， 并 去 除 所 有 的 数字 : 


> corpus clean <- tm mapl(sms_ corpus, tolower) 
> Corpus_ clean <- tm map(corpus clean, removeNumbers) 


在 分 析 文 本 数据 时 ， 一 个 常见 的 做 法 就 是 去 除 填充 词 ， 比 如 to、and、but 和 or， 这些 词 
称 为 停 用 词 (stop word)。 我 们 将 使 用 tm 添加 包 中 提供 的 函数 stopwords () ， 而 不 是 我 
们 自己 定义 一 个 停 用 词 列 表 ， 这 个 函数 包含 了 一 组 大 量 的 停 用 词 。 如 果 想 知道 它 包 含 的 所 有 
停 用 词 ， 在 命令 行 输入 stopwords () 即 可 。 正 如 前 面 所 做 的 ， 我们 将 通过 使 用 函数 tm_ 
map () 来 剔除 数据 中 的 停 用 词 。 


> Corpus_clean <- tm map(corpus clean, removeWords, stopwords()) 
同样 ,我们 也 可 以 去 除 标点 符号 : 
> corpus clean <- tm map (corpus clean, removePunctuation) 


既然 我 们 已 经 去 除了 数字 、 停 用 词 和 标点 符号 ， 那 么 文本 信息 中 这 些 字 符 曾经 所 在 的 地 
方 就 变 成 了 空格 。 最 后 一 步 就 是 去 除 额外 的 空格 ， 只 在 词 与 词 之 间 留 下 一 个 空格 。 
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> corpus clean <- tm map(corpus clean, stripWhitespace) 

下 表 显 示 了 短信 语料库 中 前 3 条 短信 在 清理 前 后 的 对 比 。 短 信 消 息 已 经 被 限制 得 只 剩 下 
最 有 意义 的 词 ， 标 点 符号 和 大 小 写 都 已 经 被 清理 。 
短信 清理 之 前 
> inspect (sms_corpus [1:3] ) 
[[1]] 
Hope you are having a good week. Just checking in 
[[2]] 
K..give back my thanks . 


EE] 
Am also doing in cbe only. But have to pay. 


既然 以 我 们 想 要 的 方式 处 理 了 数据 ， 那 么 最 后 的 步骤 就 是 通过 一 个 所 谓 的 标记 化 过 程 将 
消息 分 解 成 由 单个 单词 组 成 的 组 .一 个 记号 (token) 就 是 一 个 文本 字符 串 的 单个 元 素 ， 在 这 
种 情况 下 ， 本 例 中 的 记号 就 是 单词 。 

这 里 的 例子 是 在 Microsoft Windows 7 环境 下 运行 的 ， 用 的 是 0.5 ~ 9.1 版 本 


的 tm 添加 包 ，R 的 版 本 是 2.15.3。 如 果 你 使 用 其 他 的 民 语 言 版 本 或 者 另 一 
个 平台 ， 由 于 这 些 项 目 在 不 断 变化 ， 所 以 所 得 的 结果 可 能 会 略 有 同 。 












短信 清理 之 后 
> inspect (corpus_clean[1:3]) 
[[1]] 

hope good week just checking 
[[2] ] 

kgive back thanks 

EEF3] 

also cbe Pay 








正如 你 预想 的 那样 ，tm 添加 包 提 供 了 标记 短信 语料库 的 功能 。 函 数 DocumentTerm- 
Matrix() 将 一 个 语料库 作为 输入 ， 并 创建 一 个 称 为 稀疏 矩阵 的 数据 结构 ， 其 中 和 矩阵 的 行 表 
示 文 档 ( 即 短信 )， 和 矩阵 的 列表 示 单 词 。 和 矩阵 中 的 每 个 单元 存储 一 个 数字 ， 它 代表 由 列 标识 的 
单词 出 现在 由 行 所 标识 的 文档 中 的 次 数 。 下 面 的 截图 显示 了 短信 语料库 的 文档 -单词 ( 稀 朴 和 矩 
阵 ) 矩阵 的 一 小 部 分 ， 而 作为 完整 的 稀 朴 矩阵 则 有 5559 行 和 超过 7000 列 。 





A CT PE PE ET ET 
balloon balls bam bambling band bandages 
1 0 0 0 0 0 0 
LL， -并 0 0 0 0 
3 0 0 0 0 0 0 
4 0 0 0 0 0 0 
3 0 0 0 0 0 0 


事实 上 ， 上 表 中 的 每 一 个 格子 中 的 0 代表 它们 所 在 列 的 项 部 所 列 出 的 单词 没有 出 现在 语 
料 库 的 前 5 条 短信 中 的 任意 一 条 中 ， 这 突出 表明 这 个 数据 结构 被 称 为 稀 下 矩 阵 的 原因 ， 即 在 
该 矩阵 中 ， 绝 大 多 数 元 素 是 以 0 来 填充 的 。 尽 管 每 个 消息 包含 了 一 些 单词 ， 但 是 任意 具体 的 
单词 出 现在 给 定 的 一 条 消息 中 概率 都 是 很 小 的 。 

给 定 tm 语料库 ， 创 建 一 个 稀 朴 矩阵 要 用 到 下 述 命令 : 

> sms_dtm <- DocumentTermMatrix(corpus_ clean) 

这 条 命令 将 语料库 标记 化 ， 并 返回 一 个 名 为 sms_dtm 的 稀疏 矩阵 。 从 这 里 ， 我 们 就 可 
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以 对 包括 词 频 在 内 的 信息 进行 分 析 。 


1. 数据 准备 一 一 建立 训练 数据 集 和 测试 数据 集 


由 于 已 经 为 分 析 准 备 好 了 数据 ， 所 以 现在 我 们 需要 将 数据 分 成 训练 数据 集 和 测试 数据 
集 ， 从 而 可 以 把 垃圾 短信 分 类 器 应 用 到 之 前 没有 学 习 过 的 数据 上 ， 并 据 此 对 分 类 器 的 性 能 
进行 评估 。 我 们 将 数据 分 成 两 部 分 : 75% 的 训练 数据 和 25% 的 测试 数据 。 因 为 短信 的 排序 
是 随机 的 ， 所 以 我 们 可 以 简单 地 取 前 4169 条 短信 用 于 训练 ， 剩 下 的 1390 条 短信 用 于 测试 。 
我 们 将 通过 分 解 原 始 数 据 框 开始 : 


> sms raw train <- Sms_raw[1:4169，] 
> sms raw test <- sms raw[4170:5559, ] 


然后 输出 文档 -单词 矩阵 : 


> Sms_dtm_tralin <- sms dtm[1:4169, ] 
> sms dtm test <- sms dtm[4170:5559, ] 


最 后 ， 得 到 语料库 : 


> sms_corpus train <- corpus clean[1:4169] 
> sms_corpus test <- corpus clean[4170:5559] 


为 了 确认 上 述 子 集 是 一 组 完整 的 短信 数据 的 代表 ， 可 以 通过 比较 垃圾 短信 在 训练 数据 和 
测试 数据 中 所 占 的 比例 : 


> prop.table(table(sms raw train$type)) 
ham spam 

0.8647158 0.1352842 

> prop.table(table(sms raw test$type)) 
ham spam 

0.8683453 0.1316547 


无 论 是 训练 数据 集 和 测试 数据 集 ， 它 们 都 包含 约 13% 的 垃圾 短信 ， 这 表明 垃圾 短信 被 平 
均 分 配 在 这 两 个 数据 集中 。 


2. 可 视 化 文本 数据 一 一 词 云 


词 云 是 一 种 可 视 化 地 描绘 单词 出 现在 文本 数据 中 频率 的 方式 。 词 云 是 由 随机 分 布 在 词 云 
图 中 的 单词 构成 的 ， 经 常 出 现在 文本 中 的 单词 会 以 较 大 的 字体 呈现 ， 而 不 太 常 见 的 单词 将 会 
以 较 小 的 字体 呈现 。 最 近 ， 这 种 类 型 的 图 已 经 变 得 越 来 越 流 行 ， 因 为 它 提 供 了 一 种 观察 社交 
媒体 网 站 上 热门 话题 的 方式 。 

wordcloud 添加 包 提 供 了 一 个 简单 的 R 函数 来 创建 这 种 类 型 的 图 形 ， 我 们 将 应 用 这 个 函数 
使 短信 中 单词 类 型 可 视 化 。 比 较 垃圾 短信 和 非 垃 圾 短信 的 词 云 将 有 助 于 我 们 了 解 朴 素 贝 叶 斯 短 
信 过 滤器 是 否 有 可 能 成 功 。 如 果 还 没有 安装 wordcloud 添加 包 ， 你 需要 在 R 命令 行 输入 命令 
install .packages ("wordcloud") 来 安装 这 个 添加 包 ， 并 输入 library (wordcloud) 
来 加 载 它 。 
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wordcloud 添加 包 是 由 加 州 大 学 洛杉矶 分 校 的 专业 统计 学 家 Ian Fellows 
配 和 、 编写 的 。 想 要 了 解 关于 这 个 添加 包 的 更 多 信息 ， 可 以 访问 网 站 : http://cran. 
r-project.org/web/packages/wordcloud/index.html, 





可 以 从 tm 语料库 对 象 直 接 创建 词 云 ， 命 令 如 下 所 示 : 
> wordcloud(sms corpus train, min.freq = 40, random.order = FALSE) 


该 命令 将 从 sms_corpus_train 语 料 库 创建 一 个 词 云 。 由 于 我 们 设置 random. 
order = FALSE， 所 以 该 词 云 将 以 非 随 机 的 顺序 排列 ， 而 且 出 现 频率 越 高 的 单词 越 靠近 中 
心 。 如果 我 们 没有 设置 random.order， 该 词 云 将 会 以 默认 的 随机 方式 排列 。 参 数 min . 
freG 用 来 指定 显示 在 词 云 中 的 单词 必须 满足 在 语料库 中 出 现 的 最 小 次 数 。 通 用 规则 是 ， 开 
始 时 设置 参数 min .fregq 的 值 为 语料库 中 文档 总 数目 的 10%。 这 里 ,文档 总 数目 的 10% 大 
约 为 40。 因 此 ， 词 云 中 的 单词 至 少 在 40 条 短信 中 出 现 过 。 


a ee 消息 指出 及 无 法 将 所 有 的 单词 显示 在 图 中 。 如 果 这 
样 ， 试 着 将 参数 min.freq 的 值 向 上 调整 ， 从 而 减少 词 云 中 单词 的 数量 。 
另外 ， 使 用 参数 scale 改变 字体 的 大 小 也 很 有 用 。 


该 词 云 的 结果 如 下 图 所 示 。 

另 一 个 有 趣 的 可 视 化 涉及 垃圾 短信 和 非 垃圾 短信 词 云 的 比较 。 由 于 我 们 没有 对 垃圾 短信 
和 非 垃 圾 短信 分 别 建立 语料库 ， 所 以 这 时 应 该 应 用 函数 wordcloud () 一 个 非常 有 用 的 功 
能 。 给 定 原 始 文本 ， 在 建立 语料库 和 显示 词 云 之 前 ， 它 i ae i 


PE 二 Pu FE 下 \ aomer_ Mess888°hOPe Corect peope 
会 自动 应 用 文本 转换 过 程 。 buy 窒 meet 由 phone happy arn 


said please ee 


我 们 可 以 根据 短信 类 型 ,通过 R 函数 subset () oonna prize wantiex tell great hings 





kK 
来 获取 其 中 一 种 类 型 的 短信 数据 ， 即 抽取 sms_raw_ i 
train 的 一 个 子 集 。 首 先 ， 我 们 将 创建 type 等 于 spam "just ca got SSE 
的 子 集 : in slike FI OW KOE 
有 , ee 、 Smy welP YE et, lol much 
> spam <- subset (sms raw train, type == "spam") 由 see sbfreetime LO 
其 次 ， 获 取 子 集 ham: ne et Be mg wo 
> ham <- subset (sms raw train, type == "ham") a pmo 
-» 要 注意 双 等 号 ， 与 很 多 程序 语言 一 样 ，R 使 用 “==” 表 示 相 等 。 如 果 你 一 
Q 不 小 心 使 用 了 一 个 等 号 ， 你 将 会 得 到 一 个 比 你 预期 要 大 得 多 的 子 集 。 


现在 ， 我 们 有 两 个 短信 数据 框 : spam (垃圾 短信 ) 和 ham ( 非 垃圾 短信 )， 每 一 个 都 带 
有 包含 原始 文本 字符 串 的 文本 特征 。 创 建 词 云 就 像 之 前 一 样 简单 。 这 一 次 ， 我 们 将 使 用 参数 
max .words， 它 用 来 显示 两 个 集合 的 任何 一 个 集合 中 最 常见 的 40 个 单词 ， 而 且 参 数 scale 
允许 调整 词 云 中 单词 的 最 大 字体 和 最 小 字体 。 你 可 以 自由 调整 这 些 参 数 直到 你 认为 合适 。 如 
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下 面 的 代码 所 示 : 


> wordcloud(spam$text, max.words = 40, scale = c(3, 0.5)) 
> wordcloud (ham$text, max.words = 40, scale = c(3, 0.5)) 


所 得 到 的 词 云 显 示 在 下 面 的 图 形 中 。 对 于 哪 一 幅 图 代表 的 是 垃圾 短信 ， 哪 一 幅 图 代表 的 
是 非 垃 圾 短信 ， 你 有 直觉 吗 ? 


back Can ; 
n Now > 总 sed 
Er mop 钾 oill wy 六 
stop txt ojaimjust se .之 timewant 
en plo 2 t Sant lor wefi ts Call one 
Eg me love Ste donNtapt still 
RO eB NOW [8 ond ater 
call Wil|lyou going 
come see 


小 、 由 于 是 随机 化 的 处 理 ， 所 以 每 一 个 词 云 看 上 去 可 能 会 咯 有 不 同 。 你 可 以 通过 多 
QQ 次 运行 wordcloud () 函数 来 选择 最 令 人 满意 的 词 云 ， 从 而 达到 演示 的 目的 
你 是 否 已 经 猜 到 左边 的 图 形 就 是 垃圾 短信 的 词 云 。 垃 圾 短信 和 包括 urgent、free 、mobile、 
call 、claim 和 stop 等 词 ， 而 这 些 单词 一 次 都 没有 出 现在 非 垃 圾 短信 中 ， 相 反 非 垃圾 短信 使 用 
的 单词 有 can 、sorry 、need 和 time 等 。 这 些 明显 的 差异 表明 我 们 的 朴素 贝 叶 斯 模型 将 会 有 一 
些 强 有 力 的 关键 词 来 对 类 别 进行 区 分 。 


3. 数据 准备 一 一 为 频繁 出 现 的 单词 创建 指示 特征 


数据 准备 过 程 中 的 最 后 一 步 就 是 把 稀 玻 矩阵 转换 成 可 用 于 训练 朴素 贝 叶 斯 分 类 器 的 数据 
结构 。 目 前 ， 该 稀 朴 矩阵 包含 数量 超过 7000 个 的 特征 ， 即 至 少 出 现在 一 条 短信 中 的 每 一 个 
单词 的 特征 。 所 有 这 些 特征 不 可 能 都 对 分 类 发 挥 作用 。 为 了 减少 特征 的 数量 ， 我 们 将 剔除 训 
练 数据 中 出 现在 少 于 5 条 短信 中 或 者 少 于 记录 总 数 的 0.1% 的 所 有 单词 。 

查找 频繁 出 现 的 单词 需要 使 用 tm 添加 包 中 的 findFreqTerms () 函数 ,该 函数 输入 
一 个 文档 -单词 矩阵 ， 并 返回 一 个 字符 向 量 ， 该 向 量 包含 出 现 次 数 不 少 于 指定 次 数 的 单词 。 
举 个 例子 ， 下 面 的 命令 将 显示 一 个 字符 向 量 ， 该 向 量 中 的 单词 在 矩阵 sms_datm_train 中 
至 少 出 现 5 次 : 

> findFreqTerms (sms_dtm train, 5) 


为 了 保存 这 个 频繁 出 现 的 单词 列表 以 备 以 后 使 用 ， 我们 使 用 Dictionary () 函数 : 
> sms_dict <- Dictionary (findFreqTerms (sms_ dtm train, 5)) 


一 部 词典 就 是 一 个 允许 我 们 指定 哪个 单词 应 该 出 现在 文档 -单词 矩阵 中 的 数据 结构 。 为 
了 限制 我 们 的 训练 矩阵 和 测试 矩阵 只 包含 前 面 词典 中 的 单词 ， 可 以 使 用 下 面 的 命令 : 
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> sms train <- DocumentTermMatrix(sms_ corpus train， 
list (dictionary = sms dict)) 

> sms test <- DocumentTermMatrix(sms corpus test, 
list (dictionary = sms_ dict)) 


现在 ， 训 练 数据 和 测试 数据 包含 了 大 约 1200 个 特征 ， 只 对 应 于 至 少 出 现在 5 条 短信 中 
的 单词 。 

朴素 贝 叶 斯 分 类 器 通常 是 训练 具有 明确 特征 的 数据 ， 这 就 带 来 了 一 个 问题 ， 因 为 稀 下 矩 
阵 中 的 元 素 表示 一 个 单词 出 现在 一 条 消息 中 的 次 数 。 于是, 我们 需要 将 其 改变 成 因子 变量 ， 
根据 单词 是 否 出 现 ， 简 单 地 表示 成 yes 或 者 no- 

下 面 的 代码 定义 了 一 个 函数 convert_counts () ， 它 将 计数 转换 成 因子 : 


> convert counts <- function(x) { 
x <- ifelse(x > 0, 1, 0) 
x <- factor(x, levels = c(0, 1), labels = c(""No"", ""Yes"")) 
return (x) 


} 

到 现在 为 止 ， 上 面 函数 中 的 一 些 模 块 看 上 去 应 该 很 熟悉 了 。 其 中 ， 第 一 行 用 来 定义 区 
数 , 语句 ifelse (x > 0，1，0) 将 改变 x 中 的 值 ， 如 果 该 值 大 于 0， 则 它 会 被 1 代替 ， 
否则 ， 它 仍然 为 0。 命令 factor 简单 地 将 值 0 和 1 转化 为 用 no 和 yes 所 标记 的 因子 。 最 
后 ， 返 回 变换 后 的 向 量 x。 

现在 ， 我 们 只 需要 将 convert_counts 应 用 于 稀 朴 矩阵 的 每 一 列 。 你 也 许 能 够 猜 到 R 
中 的 函数 可 以 做 到 这 点 ,该 函数 已 经 在 前 面 提 到 过 。 这 个 函数 就 是 apply () 函数 。 


apply () 函数 是 包括 lapply() 和 sapply() 函数 在 内 的 函数 族 中 的 一 
员 ， 这 些 函 数 可 以 作用 于 及 数据 结构 中 的 每 一 个 元 素 ， 而 且 这 些 函 数 是 及 
a 语言 的 关键 词 之 一 。 经 验 丰富 的 R 程序 开发 人 员 使 用 这 些 函 数 而 不 使 用 循环 
(比如 你 在 其 他 程序 语言 中 使 用 的 for 和 while 语句 等 )， 因 为 这 些 函 数 代 
码 更 具有 可 读 性 而 且 有 时 会 更 高 效 。 


函数 apply() 允许 一 个 函数 作用 于 一 个 抢 阵 的 每 一 行 或 者 每 一 列 ， 它 使 用 参数 
MARGIN 来 指定 作用 的 对 象 是 矩阵 的 行 或 者 列 。 在 本 例 中 ， 我 们 感 兴 趣 的 是 矩阵 的 列 ， 所 以 
我 们 令 MARGIN = 2 (MARGIN = 1 表示 的 是 行 )。 用 来 转换 训练 矩阵 和 测试 矩阵 的 完整 命 
邻 如 下 所 示 : 


> sms_ train <- apply(sms train, MARGIN = 2, convert counts) 
> sms_ test <- applylsms test, MARGIN = 2, convert counts) 


结果 将 是 两 个 矩阵 ， 每 个 矩阵 都 带 有 因子 类 型 的 列 ， 用 Yes 和 No 来 表示 每 一 列 的 单词 
是 否 出 现在 构成 行 的 信息 中 。 
4.2.4 第 3 步 一 一 基于 数据 训练 模型 
因为 我 们 已 经 将 原始 短信 转换 成 了 可 以 用 一 个 统计 模型 代表 的 形式 ， 所 以 此 时 是 应 用 朴 
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素 贝 叶 斯 算法 的 时 候 了 。 该 算法 将 根据 单词 的 存在 与 否 来 估计 一 条 给 定 的 短信 和 是 垃圾 短信 的 
我 们 采用 e1017 添加 包 中 的 朴素 贝 叶 斯 算法 实现 。 这 个 添加 包 是 由 维也纳 理工 大 

学 (Vienna University of Technology. TU Wien) 统计 系 开 发 的 ， 它 包含 了 用 于 机 需 学 习 
的 多 种 函数 。 如 果 你 还 没有 安装 这 个 添加 包 ， 在 继续 之 前 ， 需 要 使 用 命令 install. 
packages ("e1071") 和 1ibrary (e1071) 来 准备 好 这 个 包 。 

许多 机 器 学 习 方 法 不 只 是 通过 一 个 及 添加 包 实 现 的 ， 朴 素 贝 叶 斯 也 不 例外 。 

另 一 种 经 常 引用 的 朴素 贝 叶 斯 函数 是 klaR 添加 包 中 的 NaiveBayes() 函 

数 ， 它 几乎 等 同 于 本 文中 所 描述 的 函数 。 你 可 以 自由 选择 你 喜欢 的 函数 。 


与 前 面 章节 中 我 们 用 于 分 类 的 KNN 算法 不 同 ， 训 练 一 个 朴素 贝 叶 斯 分 类 器 和 使 用 朴素 
册 叶 斯 进行 分 类 是 发 生 在 不 同 的 阶段 的 。 尽 管 如 此 ， 分 类 相当 简单 ， 如 下 表 所 示 。 


创建 分 类 器 : 


m <- naiveBayes (train, class, laplace 

e train: 数据 框 或 者 包含 训练 数据 的 矩阵 

。 class: 包含 训练 数据 每 一 行 的 分 类 的 一 个 因子 向 量 

e laplace: 控制 拉 普 拉 斯 估计 的 一 个 数值 (默认 为 0 ) 
该 函数 返回 一 个 朴素 贝 叶 斯 模型 对 象 ， 该 对 象 能 够 用 于 预测 。 


进行 预测 : 
<- predict(m, test, type = "class") 


m: 由 函数 naiveBayes() 训练 的 一 个 模型 
test: 数据 框 或 者 包含 测试 数据 的 矩阵 ， 包 含 与 用 来 建立 分 类 器 的 训练 数据 相同 的 特征 
type: 值 为 “class” 或 者 “raw”， 标 识 预测 是 最 可 能 的 类 别 值 或 者 原始 的 预测 概率 
该 函数 将 返回 一 个 向 量 ， 根 据 参 数 type 的 值 ， 该 向 量 含 有 预测 的 类 别 值 或 者 原始 预测 的 概率 值 。 
例子 : 


sms_classifier <- naiveBayes (sms train, sms type) 
sms_predictions <- predict (sms classifier, sms test) 


为 了 基于 sms_train 和 抢 阵 建立 模型 ， 我 们 将 使 用 如 下 的 命令 : 
> sms_classifier <- naiveBayes(sms train, sms raw traingStype) 


sms_classifier 变量 现在 包含 一 个 可 以 用 于 预测 的 naiveBayes 分 类 器 对 象 。 


4.2.5 第 4 步 一 一 评估 模型 的 性 能 


为 了 评估 短信 分 类 器 ， 我 们 需要 基于 测试 数据 中 未 知 的 短信 来 检验 分 类 器 的 预测 值 。 回 
想 一 下 ， 未 知 的 短信 特征 存储 在 一 个 名 为 sms_test 的 矩阵 中 ， 而 分 类 标签 spam 和 ham 
存储 在 sms_raw_test 数据 框 中 一 个 名 为 type 的 向 量 中 。 我 们 把 已 经 训练 过 的 分 类 器 命 
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名 为 sms_classifier, 我 们 将 用 它 来 产生 预测 值 ， 并 将 预测 值 与 真实 值 相 比 较 。 

我 们 用 函数 predict () 进行 预测 ， 并 将 这 些 预 测 值 存储 在 一 个 名 为 sms_test_pred 
的 向 量 中 : 

> sms test pred <- predict (sms classifier, sms_test) 

为 了 比较 预测 值 和 真实 值 ， 我 们 将 使 用 gmodels 添加 包 中 的 函数 crossTable () ， 
在 之 前 我 们 已 经 使 用 过 这 个 函数 。 这 一 次 ,我 们 将 增加 一 些 额外 的 参数 来 消除 不 必要 的 元 素 
的 比例 ， 并 使 用 参数 ann( 维度 名 称 ) 来 重新 标记 行 和 列 ， 如 下 面 的 代码 所 示 : 


> library (gmodels) 
> CrossTable(sms test pred, sms raw test$type, 
prop.chisq = FALSE, prop.t = FALSE, 





dnn = c('predicted', 'actual')) 
这 就 产生 了 下 面 的 表格 : 
Total Observations in Table: 1390 
1 actual 
predicred | ham | spam | Row Toral | 
ham 1203 32 1235 
0. 997 0.175 
spam | 4 i151 155 
| 0.003 0.825 
Column Total | 1207 183 1390 
| 0. 868 0.132 





从 表 中 可 以 看 出 ，1207 条 非 垃圾 短信 中 有 4 条 短信 被 错误 地 归 为 垃圾 短信 ， 比 例 为 
0.3%， 而 183 条 垃圾 短信 中 有 32 条 短信 被 错误 地 归 为 非 垃圾 短信 ， 比 例 为 17.5%。 考 虑 到 
在 这 个 案例 中 ,我 们 几乎 没有 做 什么 工作 ， 具 有 这 种 水 平 的 表现 是 相当 好 的 。 另 外 ， 本 案例 
的 研究 也 说 明了 为 什么 说 朴素 贝 叶 斯 算法 是 用 于 文本 分 类 的 一 种 标准 算法 ， 而 且 朴 素 贝 叶 斯 
方法 可 以 直接 拿 来 使 用 ， 执 行 的 效果 也 是 出 奇 地 好 。 

另 一 方面 ， 被 错误 地 归 为 垃圾 短信 的 4 条 短信 可 能 会 为 过 滤 算 法 的 部 署 带 来 显著 的 问 
题 。 如 果 过 滤器 导致 菜 人 错过 一 条 重要 的 约会 或 者 紧急 情况 的 短信 ， 那 么 他 们 会 很 快 放 弃 这 
种 产品 ， 因 此 我 们 需要 研究 这 些 错误 分 类 的 短信 ， 看 看 是 哪里 出 了 问题 。 


4.2.6 ”第 5 步 一 一 提升 模型 的 性 能 


你 可 能 已 经 注意 到 ， 在 训练 模型 时 ， 我 们 并 没有 设置 一 个 值 来 用 于 拉 普 拉 斯 估计 。 毫 无 
疑问 ， 这 样 就 允许 在 分 类 的 过 程 中 单词 可 能 出 现在 0 条 垃圾 短信 或 者 0 条 非 垃 圾 短信 中 。 比 
如 ， 昌 然 单 词 “ ringtone ”只 出 现在 训练 数据 的 垃圾 短信 中 ， 但 这 并 不 意味 着 每 一 个 含有 单 
词 “ringtone ”的 短信 就 应 该 被 归 为 垃圾 短信 。 

我 们 会 像 之 前 一 样 建立 朴素 贝 叶 斯 模型 ， 但 这 一 次 我 们 设置 laplace = 1: 


> Sms_classifier2 <- naiveBayes (Sms_train，Sms_Law_ trainStype， 
laplace = 1) 
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接 下 来 ， 我们 将 进行 预测 : 
> sms_ test pred2 <- predict (sms classifier2, sms test) 
最 后 ， 我 们 将 使 用 交叉 表 来 比较 预测 的 分 类 和 真实 的 分 类 情况 : 


> _ CrossTable (sms_test_pPred2，sms_raw_testS$type， 
Prop .chisq = FALSE, prop.t = FALSE, prop.r = FALSE, 
dnn = c('predicted', 'actual')) 


该 结果 如 下 表 所 示 。 


Total Observations in Table: 1390 





| ctual 
predicted | | spam | Row Total | 
ham | 1204 | 31 | 1235 | 
| 0.998 | 0.169 | | 
spam 3 152 | 155 | 
0.002 0.831 | | 
Column Total 1207 | 183 | 1390 | 
| 0.868 | 0.132 | | 


我 们 不 仅 将 错误 地 归 为 垃圾 短信 的 非 垃 圾 短信 的 数量 由 4 减少 到 3， 而 且 我 们 也 将 错误 
地 归 为 非 垃 圾 短信 的 垃圾 短信 数量 由 32 减少 到 31。 虽 然 这 看 上 去 是 一 个 很 小 的 改进 ， 但 我 
们 必须 意识 到 如 果 我 们 对 垃圾 短信 的 过 滤 过 于 激进 ， 那 么 重要 信息 被 遗漏 的 可 能 性 是 很 大 的 。 


4.3” ”总结 


本 章 中 ， 我 们 学 习 了 如 何 使 用 朴素 贝 叶 斯 进行 分 类 。 该 算法 构建 了 概率 表 用 来 估计 新 案 
例 属于 不 同类 别 的 似 然 。 概 率 是 通过 一 个 称 为 贝 叶 斯 定理 的 公式 来 计算 的 ， 它 表明 相关 事件 
是 如 何 相 关 的 。 尽 管 贝 叶 斯 公式 的 计算 是 很 复杂 的 过 程 ， 但 是 应 用 一 个 事件 相互 独立 的 “ 简 
单 ” 假 设 后 ， 就 得 到 一 个 可 用 于 巨大 数据 集 的 简化 贝 叶 斯 算法 。 

朴素 贝 叶 斯 分 类 器 通常 用 于 文本 分 类 。 为 了 说 明 其 有 效 性 ， 我 们 采用 朴素 贝 叶 斯 进行 了 
一 个 关于 过 滤 垃 圾 短信 的 分 类 任务 。 需 要 专门 的 R 添 加 包 用 于 准备 需要 分 析 的 文本 数据 、 预 
处 理 文本 以 及 文本 的 可 视 化 。 最 终 ， 该 模型 能 够 将 大 约 98% 的 短信 正确 地 分 成 垃圾 短信 和 非 
垃圾 短信 。 

在 第 5 章 中 ， 我 们 将 研究 另 两 种 机 器 学 习 方法 ， 每 种 方法 都 通过 将 数据 划分 到 具有 相似 
值 的 组 中 来 进行 分 类 。 
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分 而 治之 一 一 应 用 决策 树 和 规则 进行 分 类 


为 了 做 出 一 个 艰难 的 决定 ， 有 些 人 会 列 出 每 一 种 可 能 性 的 利 与 弊 来 权衡 他 们 的 选择 。 假 
设 一 个 求职 者 正在 几 份 工作 机 会 之 间 做 抉择 ， 而 这 些 工作 有 的 离 家 近 ， 有 的 离 家 远 ， 且 有 着 
不 同 水 平 的 薪酬 和 福利 ， 他 可 能 会 创建 一 张 带 有 每 一 个 职位 特征 的 列表 ， 然 后 根据 这 些 特 
征 ， 创 立 规则 来 排除 一 些 选择 。 比 如 ,“ 如 果 我 上 下 班 时 间 超 过 一 个 小 时 ， 那 么 我 会 不 高 兴 ”， 
或 者 ,“ 如 果 我 挣 的 钱 少 于 5 万 美元 ， 那 么 我 将 不 能 够 支撑 我 的 家 庭 ” 。 预 测 未 来 幸福 的 困难 
决定 可 以 简化 为 一 系列 小 的 越 来 越 具体 的 选择 。 

本 章 介 绍 两 种 机 器 学 习 方法 一 一 决策 树 和 规则 学 习 。 这 两 种 方法 应 用 一 个 类 似 的 策略 : 通 
过 将 数据 集 划分 成 较 小 的 子 集 来 确定 用 于 预测 的 方式 ， 这 些 知识 之 后 将 以 逻辑 结构 的 形式 呈现 ， 
不 需要 任何 统计 知识 就 可 以 理解 。 这 方面 使 得 这 些 模 型 对 改进 企业 战略 和 业务 流程 特别 有 用 。 

到 本 章 结 束 时 ， 你 将 学 习 下 列 知 识 : 

口 每 一 种 方法 是 采用 什么 策略 将 数据 划分 成 令 人 感 兴趣 的 类 别 的 。 

口 决策 树 和 规则 分 类 的 几 种 实现 方法 ， 包 括 C5.0 算法 、1R 算法 和 RIPPER 算法 。 

口 如 何 使 用 这 些 算 法 进行 现实 世界 的 分 类 任务 ， 比 如 ， 确 定 高 风险 的 银行 贷款 、 识 别 有 

毒 的 蘑菇 。 

我 们 首先 研究 决策 树 ， 其 次 研究 规则 分 类 ， 最 后 我 们 总 结 本 章 所 学 到 的 内 容 并 预览 后 面 
的 章节 。 在 后 面 的 章节 中 ， 我 们 将 讨论 以 决策 树 和 规则 学 习 为 基础 ， 用 于 其 他 高 级 机 器 学 习 
技术 的 方法 。 


5.1 理解 决策 树 


正如 你 可 能 会 从 名 字 知 道 ， 决 策 树 学 习 算 法 以 树 形 结构 建立 模型 。 类 似 于 流程 图 ， 该 模 
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型 本 身 包 含 一 系列 逻辑 决策 ， 带 有 表明 根据 某 一 属性 做 出 决定 的 决策 节点 。 从 这 些 决策 节点 
引出 的 分 枝 表示 可 做 出 的 选择 ， 决策 树 由 叶 节点 (leaf notes， 也 称 为 终端 节点 ) 终止 ， 叶 市 
点 表示 遵循 决策 组 合 的 结果 。 

数据 的 分 类 从 根 节点 开始 ， 根 据 特征 值 遍历 树 上 的 各 个 决策 节点 。 数 据 采 用 的 是 一 个 浙 
斗 形 的 路 径 ， 它 将 每 一 条 记录 汇集 到 一 个 叶 节 点 ， 在 叶 节 点 为 该 记录 分 配 一 个 预测 类 

因为 决策 树 本 质 上 是 一 个 流程 图 ， 所 以 决策 树 特别 适合 应 用 于 由 于 法 律 因素 需要 透明 化 
的 分 类 机 制 以 及 为 了 便于 决策 需要 共享 成 果 的 分 类 。 一 些 潜在 的 用 途 包括 : 

口 信用 评估 模型 中 ， 其 中 导致 申请 被 拒绝 的 准则 必须 明确 规定 . 

口 客户 流失 或 者 客户 满意 度 的 市 场 调查 将 与 管理 机 构 或 者 广告 公司 共享 。 

口 基于 实验 测量 、 症 状 或 者 疾病 进展 率 的 医疗 条 件 诊断 。 

虽然 前 面 的 应 用 都 说 明了 用 于 展现 决策 过 程 的 决策 树 的 价值 ， 但 这 并 不 说 明 决 策 树 的 效 
用 到 此 为 止 。 事实 上 ,决策 树 可 能 是 最 广泛 使 用 的 机 器 学 习 技术 之 一 ， 它 几乎 可 以 用 于 任何 
类 型 的 数据 建 模 ， 并 且 具 有 无 与 伦比 的 性 能 

尽管 决策 树 的 应 用 性 很 广 ， 但 值得 注意 的 是 ， 在 一 些 案 例 中 ,决策 树 可 能 不 是 一 个 理想 
的 选择 。 这 样 的 案例 可 能 是 下 述 情况 下 的 分 类 任务 ， 此 时 数据 有 大 量 的 多 层次 的 名 义 特 征 或 
者 数据 有 大 量 的 数值 特征 ， 这 些 案例 可 能 生成 数量 庞大 的 决策 和 一 个 过 于 复杂 的 决策 树 。 


5.1.1 分 而 治之 

决策 树 的 建立 使 用 一 种 称 为 递归 划分 (recursive partitioning) 的 探索 法 。 这 种 方法 通常 
称 为 分 而 治之 (Divide and Conquer)， 因为 它 利用 特征 的 值 将 数据 分 解 成 具有 相似 类 的 较 小 
的 子 集 。 

从 代表 整个 数据 集 的 根 节点 开始 ， 该 算法 选择 最 能 预测 目标 类 的 特征 ， 然 后 ， 这 些 案例 
将 被 划分 到 这 一 特征 的 不 同 值 的 组 中 ， 这 一 决定 形成 了 第 一 组 树枝 。 该 算法 继续 分 而 治之 其 
他 节点 ， 每 次 选择 最 佳 的 候选 特征 ， 直 到 达到 停止 的 标准 。 如 果 一 个 节点 停止 ， 它 可 能 具有 
下 列 情况 : 

口 节点 上 所 有 (几乎 所 有 ) 的 案例 都 属于 同一 类 . 

口 没有 剩余 的 特征 来 分 辩 案 例 之 间 的 区 别 。 

口 决策 树 已 经 到 达 预 先 定义 的 大 小 限制 。 

为 了 说 明 决 策 树 的 建立 过 程 ， 我 们 来 考虑 一 个 简单 的 例子 。 想 象 你 正在 一 家 好 莱 坞 电影 
制 片 三 工作 ， 你 的 办 公 桌 上 堆 满 了 剧本 ， 你 决定 研究 一 个 决策 树 算法 来 预测 一 部 有 潜力 的 电 
影 是否 会 落 入 受 主 流 欢迎 (mainstream hit)、 批 评 家 的 选择 ( critic’s choice) 和 票房 月 湾 ( box 
office bust) 这 三 大 类 中 ， 而 不 是 从 头 到 尾 把 每 个 剧本 读 一 遍 。 

为 了 收集 数据 来 建立 你 的 模型 ， 你 转向 工作 室 的 档案 去 研究 过 去 10 年 电影 发 行 的 情况 。 
在 查看 了 30 个 不 同 电影 剧本 的 数据 后 ， 一 个 模型 出 现 了 ， 在 电影 的 拍摄 预算 中 一 线 名 人 排 
队 等 候 主演 角色 的 数量 与 电影 成 功 的 类 别 之 间 似 乎 有 一 种 关系 。 该 数据 的 散 点 图 可 能 类 似 于 
下 面 这 幅 图 : 
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- 线 明星 数量 





预算 (美元 ) 
为 了 使 用 该 数据 建立 一 个 简单 的 决策 树 ， 我 们 可 以 应 用 一 个 分 而 治之 策略 。 首 先 ， 我们 
将 表示 名 人 数量 的 特征 进行 划分 ， 将 电影 划分 成 有 少数 一 线 明星 和 有 很 多 一 线 明星 的 两 组 : 





预算 (美元 ) 
其 次 ， 在 有 很 多 名 人 的 这 组 电影 中 ,我 们 可 以 根据 电影 预算 的 高 低 做 男 一 个 划分 : 





预算 (美元 ) 


此 时 ， 我 们 已 经 将 数据 划分 成 3 组 。 图 左上 角 的 这 组 完全 由 广 受 好 评 的 电影 组 成 ， 这 一 
组 是 根据 有 相当 多 的 名 人 和 相对 较 低 的 预算 划分 出 来 的 ; 图 右上 角 的 这 组 是 由 大 多 数 票房 很 
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高 的 电影 组 成 的 ， 有 很 高 的 预算 和 相当 多 的 名 人 ; 最 后 一 组 ， 几 乎 没有 明星 的 力量 ， 预 算 有 
高 有 低 ， 也 包括 了 比较 失败 的 电影 。 

如 果 需 要 ， 我 们 可 以 继续 划分 数据 ， 根 据 越 来 越 具体 的 预算 范围 和 名 人 数量 ， 直 到 每 个 
错误 的 分 类 值 都 分 配 到 自己 的 分 区 (或 许 是 很 微小 的 分 区 )。 由 于 数据 可 以 继续 划分 ， 直 到 在 
一 个 分 区 内 的 特征 没有 区 别 ， 所 以 决策 树 容易 对 训练 数据 进行 过 度 拟 合 ， 给 出 过 于 具体 细节 
的 决策 。 我 们 将 在 这 里 停止 分 类 算法 以 避免 这 种 情况 发 生 ， 因 为 每 组 中 超过 80% 的 案例 来 自 
于 同一 个 类 。 

你 可 能 已 经 注意 到 ， 对 角 线 可 能 更 加 清晰 地 划分 数据 。 这 是 决策 树 算法 使 用 

-小 、 轴 平 行 分 割 来 表现 知识 的 一 个 局 限 性 。 每 一 分 割 一 次 只 考虑 一 个 特征 的 事实 ， 
预防 了 决策 树 会 由 更 复杂 的 决策 形成 ， 比 如 ,“ 如 果 名 人 的 数量 远大 于 所 估计 
的 预算 ， 那么 这 部 电影 将 会 是 一 部 很 成 功 (critical success 类 ) 的 电影 。” 


我 们 用 于 预测 电影 未 来 成 功 的 模型 可 以 用 一 个 简单 的 决策 树 来 表示 ， 如 下 图 所 示 。 为 
了 评估 一 个 剧本 ， 可 以 依照 每 一 个 决策 分 枝 ， 直 到 预测 出 它 是 成 功 的 或 者 失败 的 。 于 是 ， 
在 任何 时 候 ， 你 都 可 以 对 积压 的 剧本 进行 分 类 ， 然 后 去 做 更 重要 的 工作 ， 比 如 写 一 份 获奖 


= 
感言 。 
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@ 票房 崩溃 (10/12) 


加 | 十 分 成 功 (9/18) 
会 主流 欢迎 (9/18) 












十 分 成 功 
国 io) 


A Wo 
LA 主流 欢迎 

由 于 现实 世界 的 数据 包含 的 不 仅仅 是 两 个 特征 ， 所 以 决策 树 很 快 就 会 变 得 比 上 图 复杂 ， 
会 有 更 多 的 节点 、 分 枝 和 叶子 。 在 下 一 节 中 ， 你 将 学 习 一 个 自动 建立 决策 树 模型 的 流行 算法 。 
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5.1.2 C5.0 决策 树 算法 

决策 树 有 很 多 算法 可 以 实现 , 但 C5.0 算 法 是 最 知名 的 决策 树 算法 之 一 。 该 算法 是 由 计 
算 机 科学 家 JRoss Quinlan 为 改进 他 之 前 的 算法 C4.5 开发 的 新 版 本 ，C4.5 本 身 就 是 对 他 的 
ID3 算法 ( Iterative Dichotomiser 3， 和 迭代 二 叉 树 3 代 ) 的 一 个 改进 。 尽 管 Quinlan 将 C5.0 算 
法 销售 给 商业 用 户 (详情 可 见 网 站 http:Wwww.rulequest.com/)， 但 是 该 算法 的 一 个 单线 程 版 本 
的 源 代码 是 公开 的 ， 因 此 可 以 编写 成 程序 ， 比 如 R 中 就 有 该 程序 . 


对 于 更 混乱 的 问题 ， 一 个 基于 Java 的 开源 流行 算法 名 为 J48， 可 以 代替 

Ce C4.5 算法 ， 该 算法 包含 在 RWeka 包 中 。 因 为 C5.0、C4.5 和 J48 算法 之 间 

一 的 差异 是 很 小 的 ， 所 以 本 章 的 原则 适用 于 这 3 种 算法 中 的 任意 一 种 ， 而 且 
这 3 种 算法 应 该 认为 是 同 义 的 。 


C5.0 算法 已 经 成 为 生成 决策 树 的 行业 标准 ， 因 为 它 确实 适用 于 大 多 数 类 型 的 问题 ， 而 且 
可 以 直接 使 用 。 与 其 他 先进 的 机 器 学 习 模 型 (比如 第 7 章 所 描述 的 黑箱 方法 一 一 神经 网 络 和 
支持 向 量 机 ) 相 比 ， 通 过 C5.0 算法 建立 的 决策 树 一 般 都 表现 得 与 其 他 先进 的 模型 几乎 一 样 
好 ， 而 且 更 容易 理解 和 易于 部 署 。 此 外 ， 该 算法 的 缺点 相对 来 说 是 较 轻微 的 ， 而 且 在 很 大 程 
度 上 都 可 以 避免 ， 如 下 表 所 示 。 


优点 
e 一 个 适用 于 大 多 数 问题 的 通用 分 类 器 
e 高 度 自 动 化 的 学 习 过 程 ， 可 以 处 理 数 值 型 数据 、 
名 义 特征 以 及 缺失 数据 
e 只 使 用 最 重要 的 特征 
e 可 以 用 于 只 有 相对 较 少 训练 案例 的 数据 或 者 有 相 
当 多 训练 案例 的 数据 


缺点 
e 决策 树 模型 在 根据 具有 大 量 水平 的 特征 进行 划分 
时 往往 是 有 偏 的 
e 很 容易 过 度 拟 合 或 者 不 能 充分 拟 合 模型 
e 因为 依赖 于 轴 平 行 分 割 ， 所 以 在 对 一 些 关 系 建立 
模型 时 会 有 困难 
e 训练 数据 中 的 小 变化 可 能 导致 决策 逻辑 的 较 大 


e 没有 数学 背景 也 可 以 解释 一 个 模型 的 结果 (对 于 比 变化 
较 小 的 树 ) 。 大 的 决策 树 可 能 很 难 理解 ， 给 出 的 决策 可 能 看 起 
。 比 其 他 复杂 的 模型 更 有 效 来 会 违反 直觉 





在 本 章 的 前 面 ， 我 们 用 一 个 简单 的 例子 说 明了 决策 树 模型 的 数据 如 何 使 用 分 而 治之 策 
略 。 让 我 们 更 详细 地 探讨 这 种 方法 ， 研 究 该 探索 法 在 实际 中 是 如 何 运作 的 。 


1. 选择 最 佳 的 分 割 


决策 树 面 临 的 第 一 个 挑战 就 是 需要 确定 根据 哪个 特征 进行 分 割 。 在 前 面 的 例子 中 ,我们 
以 这 样 一 种 方式 来 寻找 分 割 数据 的 特征 值 ， 即 分 区 中 主要 包含 来 源 于 一 个 单一 类 的 案例 。 如 
果 一 组 数据 中 只 包含 一 个 单一 的 类 ， 那 么 这 些 类 被 认为 是 纯 的 。 有 许多 不 同 的 度量 纯度 的 方 
法 ,它们 可 以 用 来 确定 分 割 的 标准 。 

C5.0 算法 使 用 灶 度 量 纯度 。 样 本 数据 的 焙 表 示 分 类 值 如 何 混杂 在 一 起 ， 最 小 值 0 表示 的 
样本 是 完全 同 质 的 ， 而 1 表示 样本 凌乱 的 最 大 数量 。 焙 的 定义 具体 如 下 : 
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Entropy(S)= > -plog, (p,) 
在 简 的 公式 中 ， 对 于 给 定 的 数据 分 割 (5)， 常 数 c 代表 类 的 水 平 数 ，p; 代表 落 入 类 的 水 
平 i 中 的 特征 值 的 比例 。 例 如 ， 假设 我 们 有 一 个 两 个 类 的 数据 分 割 : 红 (60%) 和 白 ( 40%)， 
我 们 可 以 计算 该 数据 分 割 的 粮 ， 如 下 所 示 : 


> -0.60 * log2(0.60) - 0.40 * log2(0.40) 
[1] 0.9709506 


我 们 可 以 考察 所 有 可 能 的 两 个 类 划分 的 炉 。 如 果 我 们 知道 在 一 个 类 中 案例 的 比例 为 x， 
那么 在 另 一 个 类 中 的 比例 就 是 1-x。 使 用 函数 curve () ， 我 们 就 可 以 绘制 关于 x 的 所 有 可 
能 值 的 倘 的 图 形 : 


> CUFVel(-X * LOg2(X) -= (1 = X¥) * log2(1 - XxX), 
col="red", xlab = "x", ylab = "Entropy": lwd=4) 
结果 如 下 图 所 示 。 
S 
oo 
S 
> 
全 妆 
占 So 
一 
四 二 
S 
| 
So 
0.0 0.2 0.4 0.6 0.8 1.0 


如 上 图 所 示 ， 炉 的 峰值 在 x=0.5 时 取 到 ， 一 个 50-50 分 割 导 臻 最 大 焙 值 。 当 一 个 类 相 
对 于 其 他 类 越 来 越 占 据 主导 地 位 时 ， 焙 值 会 逐渐 减少 到 0。 

给 定 这 种 度量 纯度 的 方式 ， 决 策 树 算法 仍然 必须 决定 根据 哪个 特征 进行 分 割 。 对 于 这 一 
点 ， 决 策 树 算法 使 用 箭 值 来 计算 由 每 一 个 可 能 特征 的 分 割 所 引起 的 同 质 性 (均匀 性 ) 变化 ， 
该 计算 称 为 信息 增益 。 对 于 特征 忆 ， 信 息 增益 的 计算 方法 是 分 割 前 的 数据 分 区 (51) 的 信 值 减 
去 由 分 割 产 生 的 数据 分 区 (5,) 的 人 值 ， 即 

InfoGain(F)= Entropy(S, )— Entropy(S, ) 

复杂 之 处 在 于 ， 一 次 分 割 后 ， 数 据 被 划分 到 多 个 分 区 中 ,因此 计算 Entropy(5,) 的 函数 需 
要 考虑 所 有 分 区 业 值 的 总 和 。 这 可 以 通过 记录 落 入 每 一 分 区 的 比例 来 计算 每 一 分 区 的 权重 ， 
可 以 用 如 下 的 公式 来 表示 : 


Entropy(S)= > w Entropy(P) 
i=] 
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简单 来 说 ， 从 一 个 分 割 得 到 的 总 蚁 就 是 根据 案例 落 入 分 区 中 的 比例 w 加 权 的 n 个 分 区 的 
炉 值 的 总 和 。 
信息 增益 越 高 ， 根 据 某 一 特征 分 割 后 创建 的 分 组 越 均 衡 ， 如 果 信 息 增益 为 零 ， 那 么 根据 
该 特征 进行 分 割 后 的 箭 值 就 不 会 减少 。 另 一 方面 ， 最 大 信息 增益 等 于 分 割 前 的 灶 值 ， 这 意味 
着 分 割 后 入 值 为 零 ， 即 决策 结果 是 在 完全 同 质 的 分 组 中 。 
前 面 的 公式 假定 是 名 义 特征 ， 但 对 于 数值 特征 的 分 割 ， 决 策 树 同 样 可 以 使 用 信息 增益 。 
一 个 通常 的 做 法 就 是 测试 不 同 的 分 割 ， 根 据 比 冰 值 大 还 是 比 阔 值 小 ， 将 数值 划分 到 不 同 的 组 
中 ， 这 将 数值 特征 压缩 到 一 个 两 水 平 的 分 类 特征 ， 而 且 信息 增益 可 以 很 容易 计算 ， 选 择 产生 
最 大 信息 增益 的 数字 效 值 用 于 进行 分 割 。 
虽然 C5.0 算法 使 用 了 信息 增益 ， 但 信息 增益 并 不 是 构建 决策 树 的 唯一 分 割 
标准 。 其 他 常用 的 标准 有 基尼 系数 (Gini index)、 卡 方 统计 量 (Chi-Squared 
1 急 《 ”statistic) 和 增益 比 (gain ratio)。 对 于 这 些 (以 及 更 多 ) 标准 的 详细 介绍 ， 
可 以 参阅 An Empirical Comparison of Selection Measures for Decision-Tree 
Induction, Machine Learning, Vol. 3, pp. 319-342, by J. Mingers (1989), 


2. 修剪 决策 树 


一 棵 决策 树 可 以 继续 无 限制 地 增长 ， 选 择 需要 分 割 的 特征 ， 分 割 成 越 来 越 小 的 分 区 直 
到 每 一 个 案例 完全 归 类 ， 或 者 算法 中 再 也 没有 可 用 于 分 割 的 特征 。 然 而 ， 如 果 决 策 树 增长 过 
大 ， 将 会 使 许多 决策 过 于 具体 ， 模 型 将 会 过 度 拟 合 训练 数据 。 而 修剪 一 棵 决策 树 的 过 程 涉及 
减 小 它 的 大 小 ， 以 使 决策 树 能 更 好 地 推广 到 未 知 的 数据 。 

解决 这 个 问题 的 一 种 方法 就 是 一 旦 决策 树 达 到 一 定数 量 的 决策 ， 或 者 决策 节点 仅 含 有 少 
量 的 案例 ， 我 们 就 停止 树 的 增长 ， 这 叫做 提前 停止 法 ， 或 者 预 剪 枝 决策 树 法 。 由 于 这 种 预 前 
枝 决策 树 避 兔 了 做 不 必要 的 工作 ， 所 以 这 是 一 个 有 吸引 力 的 策略 。 然 而 ， 不 足 之 处 在 于 没有 
办 法 知道 决策 树 是 否 会 错过 细微 但 很 重要 的 模式 ， 这 种 细微 的 模式 只 有 决策 树 生 长 到 足够 大 
时 才能 学 习 到 。 

另 一 种 方法 称 为 后 剪 枝 决策 树 法 ， 如 果 一 棵 决策 树 生 长 得 过 大 ， 就 根据 节点 处 的 错误 率 
使 用 修剪 准则 将 决策 树 减 小 到 更 合适 的 大 小 。 该 方法 通常 比 预 剪 枝 法 更 有 效 ， 因 为 如 果 没 有 
事先 生成 决策 树 ， 要 确定 一 棵 决策 树 生 长 的 最 佳 程度 是 相当 困难 的 ， 而 事后 修剪 决策 树 肯定 
可 以 使 算法 查 到 所 有 重要 的 数据 结构 。 


修剪 操作 的 实施 细节 是 很 具 技术 性 的 ， 超 出 了 本 书 的 范围 。 对 于 一 些 可 用 方 
R&C 法 的 比较 ， 可 以 和 参阅: A comparative analysis of methods for pruning decision 
~ trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, 
pp. 476-491, by F. Esposito, D. Malerba, and G. Semeraro (1997)。 


C5.0 算法 的 优点 之 一 就 是 它 可 以 自动 修剪 ， 即 它 关注 许多 决策 ， 能 自动 使 用 相当 合理 的 
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默认 值 。 该 算法 的 总 体 策略 就 是 事后 修剪 决策 树 ， 它 先生 成 一 个 过 度 拟 合 训练 数据 的 大 决策 
树 ， 然 后 删除 对 分 类 误差 影响 不 大 的 节点 和 分 枝 。 在 某 些 情况 下 ， 整 个 分 枝 会 被 进一步 向上 
移动 或 者 被 一 些 简单 的 决策 所 取代 ， 这 两 个 移植 分 枝 的 过 程 分 别称 为 子 树 提升 和 子 树 蔡 换 。 

权衡 过 度 拟 合 与 不 足 拟 合 一 棵 决策 树 是 一 门 学 问 ， 但 如 果 模 型 的 准确 性 是 至 关 重 要 的 ， 
那么 就 很 值得 在 不 同 的 剪 枝 方案 上 花 些 时 间 ， 看 看 它 是 否 对 测试 数据 的 性 能 有 所 改善 ， 很 快 
你 就 会 看 到 ，C5.0 算法 的 优点 之 一 就 是 它 很 容易 调整 训练 方案 。 


5.2 ”例子 一 一 使 用 C5.0 决策 树 识别 高 风险 银行 贷款 


2007-2008 年 的 全 球 金融 危机 凸显 了 透明 度 和 严密 性 在 银行 业务 中 的 重要 性 。 由 于 信 
贷 供应 受到 了 限制 ， 所 以 银行 正 日 益 紧缩 其 贷款 体系 ， 转 向 机 器 学 习 来 更 准确 地 识别 高 风 
险 贷款 。 

因为 决策 树 的 准确 性 高 ， 以 通俗 易 懂 的 方法 建立 统计 模型 的 能 力 强 ， 所 以 它 广泛 地 应 用 
于 银行 业 。 由 于 许多 国家 的 政府 机 构 密切 监控 贷款 业务 ， 所 以 银行 的 高 管 必 须 能 够 解释 为 什 
么 一 个 申请 者 被 拒绝 贷款 申请 ， 而 其 他 人 获得 批准 。 此 信息 对 于 希望 判断 为 何 自己 的 信用 评 
级 是 不 符合 要 求 的 消费 者 也 是 有 用 的 。 

通过 电话 和 网 络 ， 将 自动 化 的 信用 评分 模型 用 于 即时 进行 的 信贷 审批 是 很 有 可 能 的 。 在 
本 节 中 ， 我们 将 使 用 C5.0 决策 树 建立 一 个 简单 的 信贷 审批 模型 。 我 们 也 将 看 到 应 该 如 何 调 
整 模型 的 结果 ， 从 而 使 导致 机 构 财 务 损失 的 误差 最 小 化 。 


5.2.1 第 1 步 一 一 收集 数据 

我 们 信贷 模型 背后 的 思想 就 是 确定 使 得 申请 者 违约 风险 较 高 的 因素 ， 因 此 ， 我 们 需要 获 
得 大 量 的 过 去 银行 贷款 的 数据 ， 以 及 贷款 是 否 违 约 ， 同 时 还 需要 申请 者 的 信息 。 

具有 这 些 特 征 的 数据 可 以 从 UCI 机 器 学 习 数 据 仓 库 ( Machine Learning Data Repository ) 
( http://archive.ics.uci.edu/ml) 的 一 个 数据 集 得 到 ， 这 些 数据 表示 从 德国 的 一 个 信贷 机 构 获 得 
的 贷款 ,数据 由 汉堡 大 学 的 Hans Hofmann 捐赠 。 

ul 本 章 中 给 出 的 数据 已 经 根据 原始 数据 略微 做 了 修正 ， 因 此 可 以 省 去 一 些 预 处 

Ke 理 步骤 。 要 理解 这 些 例 子 ， 你 需要 从 Packt 出 版 社 的 网 站 下 载 credit .csv 

文件 ， 并 将 该 文件 保存 到 及 工作 目录 中 。 

该 信贷 数据 集 包 含 了 1000 个 贷款 的 案例 、 一 个 用 来 表示 贷款 特征 和 贷款 申请 者 特征 的 
数值 特征 与 名 义 特 征 的 组 合 。 一 个 类 变量 表示 贷款 是 否 陷 入 违约 ， 让 我 们 看 看 我 们 是 否 能 够 
确定 一 些 模型 来 预测 贷款 是 否 违 约 。 


5.2.2 第 2 步 一 一 探索 和 准备 数据 
正如 我 们 之 前 所 做 的 ， 我 们 使 用 read.csv() 函数 导入 数据 。 由 于 数据 中 的 大 多 数 特 
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征 为 名 义 特征 (变量 )， 所 以 我 们 将 忽略 ee 选项 (即使 用 默认 值 TRUE )， 
我 们 还 将 研究 我 们 所 创建 的 信贷 数据 框 的 结 


> credit <- read.csv("credit.csv") 
> str(credit) 


函数 str() 输出 结果 的 前 几 行 如 下 所 示 : 


'idata.frame':1000 obs. of 17 variables: 
$ checking balance : Factor w/ 4 levels "< 0 DM","> 200 DM",.. 


$ months loan duration: int 6 48 12 ... 

$ credit history : Factor w/ 5 levels "critical'","good",.. 
$ purpose : Factor w/ 6 levels "business'", "car'",.. 
$ amount int 1169 5951 2096 ... 


我 们 看 到 了 预期 的 1000 个 观察 值 和 17 个 特征 (变量) 这 是 因子 和 整数 数据 类 型 的 组 


让 我 们 来 看 看 table () 函数 对 贷款 的 一 对 特征 输出 的 一 些 结 果 ， 似 乎 很 有 可 能 预测 出 
违约 者 。 特 征 (变量 ) checking _ balance 和 savings_balance 表示 支票 和 储蓄 账户 
余额 ， 并 记录 为 分 类 变量 : 

> table(creditS$checking _ balance) 

< 0DM >200DM1 - 200 DM unknown 
274 63 269 394 
> table (credit$savings balance) 


< 100 DM > 1000 DM 100 - 500 DM 500 - 1000 DM unknown 
603 48 103 63 183 


由 于 贷款 数据 是 从 德国 获取 的 ， 所 以 货币 以 德国 马克 ( Deutsche Mark，DM) 为 单位 。 
较 大 的 支票 和 储蓄 账户 余额 应 该 与 较 小 的 贷款 违约 可 能 性 相 联 系 ， 这 看 起 来 是 一 个 安全 的 
假设 。 

有 些 贷款 的 特征 是 数值 型 变量 ， 比 如 贷款 期 限 (months_loan_qduration) 和 信贷 申 
请 的 金额 (amount )。 


> summary (credit$months_loan duration) 


Min. lst Qu. Median Mean 3rd Qu. Max. 
4.0 12.0 18.0 20 .入 24.0 720 

> summary (credit$amount) 
Min. lst Qu. Median Mean 3rd Qu. Max . 
250 1366 2320 3271 3972 18420 


贷款 金额 介 于 250 ~ 18 420 马克 之 间 ， 贷 款 期 限 为 4 ~ 72 个 月 ， 其 贷款 期 限 的 中 位 数 
为 18 个 月 ， 贷 款 金 额 的 中 位 数 为 2320 马克 。 

变量 default 表示 贷款 申请 者 是 否 未 能 符合 约定 的 付款 条 件 而 陷入 违约 。 所 有 申请 贷 
款 的 有 30% 陷 人 违约 : 


> table (credit$default) 
no yes 
700 300 
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银行 贷款 给 违约 率 高 的 客户 是 不 可 取 的 ， 因 为 这 意味 着 很 有 可 能 银行 不 能 完全 收回 它 的 
投资 。 如 果 我 们 成 功 ， 我 们 的 模型 将 能 识别 可 能 违约 的 申请 者 ， 从 而 减少 违约 的 数量 。 


数据 准备 一 一 创建 随机 的 训练 数据 集 和 测试 数据 集 

正如 我 们 在 前 面 的 章节 中 所 做 的 那样 我们 将 数据 分 成 两 部 分 : 用 来 建立 决策 树 的 训练 
数据 集 和 用 来 评估 模型 性 能 的 测试 数据 集 。 我 们 将 使 用 90% 的 数据 作为 训练 数据 ，10% 的 数 
据 作为 测试 数据 ， 这 将 为 我 们 提供 100 条 记录 来 模拟 新 的 申请 者 。 

由 于 之 前 章节 中 使 用 的 数据 已 经 以 随机 的 顺序 排序 ， 所 以 我 们 通过 取 前 面 90% 的 记录 
作为 训练 数据 ， 剩 下 的 10% 作为 测试 数据 ， 简 单 地 将 数据 划分 成 了 两 部 分 。 与 之 相反 ， 我 们 
这 里 的 数据 并 不 是 随机 排列 的 。 假设 银行 已 经 根据 贷款 的 金额 对 数据 进行 了 排序 ， 最 大 金额 
的 贷款 排 在 文件 的 最 后 ， 如 果 我 们 使 用 前 90% 的 数据 作为 训练 数据 ， 剩 下 的 10% 作为 测试 
数据 ， 那 么 我 们 将 只 根据 小 额 贷 款 建立 模型 ， 而 基于 大 额 贷款 测试 模型 。 很 明显 ， 这 是 有 问 
题 的 - 

在 划分 数据 前 ， 我 们 通过 随机 排列 信贷 数据 框 来 解决 这 个 问题 。order () 函数 以 升序 
或 者 降序 的 方式 对 数据 列表 进行 重新 排列 ， 如 果 我 们 将 order () 隐 数 与 生成 一 列 随 机 数 的 
函数 相 结合 ， 就 可 以 生成 一 个 随机 排序 的 列表 。 对 于 随机 数 的 产生 ， 我 们 可 以 使 用 zunif() 
函数 ， 该 函数 在 默认 情况 下 产生 0 ~ 1 之 间 的 随机 数 序列 。 


~ 汪 、 如 果 你 想 了 解 函数 runif () 名 字 的 由 来 ， 答 案 是 因为 该 函数 事实 上 是 根据 
均匀 分 布 产生 的 随机 数 ， 这 在 第 2 章 中 ， 我们 已 经 学 过 


下 面 的 命令 创建 一 个 随机 排序 的 credit 数据 框 。set .seed() 困 数 可 用 来 在 一 个 预定 义 
的 序列 中 生成 随机 数 ， 从 一 个 称 为 随机 数 种 子 (这 里 设置 为 任意 值 12345 ) 的 位 置 开 始 。 这 
似乎 违背 了 生成 随机 数 的 目的 ,但 这 样 做 有 一 个 很 好 的 理由 ，set .seed() 函数 能 够 确保 如 
果 要 重复 这 里 的 分 析 ， 那 么 可 以 获得 相同 的 结果 。 


> Set .seed(12345) 
> credit _ rand <- credit [order(runif (1000)), |] 


命令 runif (1000) 生成 了 一 个 含有 1000 个 随机 数 的 列表 。 我 们 确实 需要 1000 个 随机 
数 ， 因 为 在 credit 数据 框 中 有 1000 条 记录 。 然 后 ，order () 函数 返回 一 个 数值 向 量 ， 该 
向 量 记录 了 排序 之 后 的 1000 个 随机 数 在 原来 序列 中 的 位 置 ， 我 们 可 以 利用 这 些 位 置 来 筛选 
credit 数据 框 中 的 行 ， 并 保存 在 一 个 名 为 credit_rana 的 新 数据 框 中 。 


”为 了 更 好 地 理解 该 函数 的 作用 ， 注 意 order(c(0.25,0.5,0.75，0.1)) 
返回 的 序列 为 4 1 2 3， 因 为 最 小 的 数 (0.1) 出 现在 第 四 个 ， 第 二 小 的 
数 (0.25) 出 现在 第 一 个 ， 以 此 类 推 。 


为 了 确认 我 们 得 到 的 是 相同 的 数据 ， 只 是 排序 不 同 ， 我 们 在 两 个 数据 框 之 间 比 较 特 征 
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amount。 下 面 的 代码 显示 了 主要 的 统计 量 : 


> summary (credit$amount) 


Min. lst Qu. Median Mean 3rd Qu. Max . 
250 1366 2320 区 3972 18420 

> summary (credit rand$amount) 
Min. list Qu. Median Mean 3rd Qu. Max . 
250 1366 2320 32 了 二 3972 18420 


我 们 可 以 使 用 head () 函数 来 查看 每 一 个 数据 框 中 的 前 几 个 值 : 


> head(creditSamount) 

[1] 1169 5951 2096 7882 4870 9055 
> head (credit rand$amount) 

[1] 1199 2576 1103 4020 1501 1568 


虽然 前 几 个 值 不 同 ,但 由 于 主要 的 统计 量 是 相同 的 ， 所 以 这 表明 我 们 随机 排序 的 做 法 是 
正确 的 。 


~ 小 、 如 果 你 的 结果 不 能 与 之 前 的 数据 完全 匹配 ， 确 保 你 在 创建 credit_rand 
a 数据 框 前 及 时 运行 命令 set .seed (214805)。 


现在 ,我 们 可 以 将 数据 划分 为 训练 数据 ( 90% 或 者 900 条 记录 ) 和 测试 数据 ( 10% 或 者 
100 条 记录 )， 正 如 我 们 在 之 前 的 分 析 中 所 做 的 : 


> tredit train <= credit rand[l1:900, ] 
> credit test <- credit rand[901:1000, ] 


如 果 一 切 顺利 ， 在 每 一 个 数据 集中 ， 我 们 应 该 有 大 约 30% 的 违约 贷款 。 


prop.table (table (credit train$sdefault)) 
no yes 

.7022222 0.2977778 

prop.table(table(credit test$default)) 

no yes 

0.68. 0.32 


这 似乎 是 一 个 相当 平衡 的 分 割 ， 所 以 现在 我 们 可 以 建立 决策 树 了 。 


5.2.3 ”第 3 步 一 一 基于 数据 训练 模型 


我 们 将 使 用 c50 添加 包 中 的 C5.0 算法 来 训练 决策 树 模型 。 如 果 你 还 没有 安装 c50 添加 
包 ， 先 要 用 命令 ijnstall .packages ("C50") 来 安装 该 添加 包 ， 用 命令 library (C50) 
将 其 加 载 到 R 的 会 话 中 。 

下 面 的 语法 框 列 出 了 用 于 构建 决策 树 的 一 些 最 常用 的 命令 。 与 我 们 之 前 使 用 过 的 机 器 学 
习 方 法 相 比 ，C5.0 算法 提供 了 更 多 的 调整 一 个 特定 学 习 问 题 模型 的 方法 ， 有 更 多 的 选项 可 供 
选择 。 命 令 ?C5 .0Control 在 帮助 页 面 上 显示 了 更 多 关于 如 何 精细 调整 模型 的 细节 。 

对 于 我 们 信贷 审批 模型 的 第 一 次 迭代 ， 我 们 将 使 用 默认 的 c5 .0 配置 ， 如 下 面 的 代码 所 


V 
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示 。 在 credit_train 中 , 第 17 列 是 类 变量 default， 所 以 我 们 需要 将 它 作 为 一 个 自 变 
量 从 训练 数据 框 中 排除 ， 但 把 它 作 为 用 于 分 类 的 目标 因子 向 量 。 


> credit model <- C5.0(credit train{[-17], credit train$default) 


创建 分 类 器 : 
m <=C5.0(train, class, trials = 1; costs = NULL) 
。 train: 一 个 包含 训练 数据 的 数据 框 
。 class: 包含 训练 数据 每 一 行 的 分 类 的 一 个 因子 向 量 
。 trial: 为 一 个 可 选 数值 ， 用 于 控制 自助 法 循环 的 次 数 (默认 值 为 1 ) 
e costs: 为 一 个 可 选 矩 了 泗 ， 用 于 给 出 与 各 种 类 型 错误 相对 应 的 成 本 
该 函数 返回 一 个 C5 .0 模型 对 象 ， 该 对 象 能 够 用 于 预测 。 
进行 预测 : 
p <- predict (m, test, type = "class") 
e m: 由 函数 c5 .0() 训练 的 一 个 模型 
。 test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 创建 分 类 器 的 训练 数据 有 同样 的 特征 。 
。 type: 取 值 为 “class” 或 者 “prob”， 标 识 预 测 是 最 可 能 的 类 别 值 或 者 是 原始 的 预测 概率 
该 函数 将 返回 一 个 向 量 ， 根 据 参数 type 的 取 值 ， 该 向 量 含 有 预测 的 类 别 值 或 者 原始 预测 的 概率 值 


例子 : 


credit model <- C5.0(credit train, loan default) 





credit prediction <- predict (credit model, credit test) 


现在 ， 对 象 credit_model 包含 一 个 c5 .0 决策 树 对 象 。 我 们 可 以 通过 输入 其 名 称 来 
查看 关于 该 决策 树 的 一 些 基 本 数据 : 


> credit model 


Call: 
C5.0.default (x = credit train[-17], y = credit train$default) 


Classification Tree 
Number of samples: 900 
Number of predictors: 16 


Tree size: 67 

前 面 的 文字 显示 了 一 些 关 于 该 决策 树 的 简单 情况 ， 包 括 生成 决策 树 的 郴 数 调 用 、 特 征 数 
( 即 predictiors) 和 用 于 决策 树 增 长 的 案例 ( samples)。 同 时 列 出 树 的 大 小 为 67， 这 表 
明 该 树 有 67 个 决策 ， 比 我 们 迄今 为 止 看 到 的 决策 树 都 要 大 很 多 。 

要 查看 决策 ， 我 们 可 以 对 模型 调用 summary () 函数 : 


> summary (credit model) 


结果 输出 如 下 : 
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C5.0 [Release 2.07 GPL Edition] 


Class specified by artribute 'outcome 
Read 900 cases (17 attributes) from undefined. data 
Decision tree: 


checking_balance = unknown: no (358/44) 
checking palanee in {< 0 DM,> 200 DM,1 - 200 DM}: 
:...Credit_history in {perfect,very good}: 
:...dependents > 1: yes (10/1) 
dependents <= 1: 
:...Savings_balance = < 100 DM: yes (39/11) 
savings_balance in {> 1000 DM,500 - 1000 DM,unknown}: no (8/1) 
savings_balance = 100 - 500 DM: 
:...Checking_balance = < 0 DM: no (1) 
checking_balance in {> 200 DM,1 - 200 DM}: yes (5/1) 


上 面 的 输出 显示 了 决策 树 的 前 几 个 分 枝 ， 前 4 行 可 以 用 通俗 易 懂 的 语言 来 表达 : 
1) 如 果 支 票 账户 余额 是 未 知 的 ， 则 归 类 为 不 太 可 能 违约 。 
2) 否则 ， 如 果 支 票 账户 余额 少 于 0 马克， 或 者 1 一 200 马克 之 间 ， 或 者 超过 200 马 殉 ， 


3) 信用 记录 非常 好 ， 甚 至 完美 ， 或 者 …… 

4) 有 多 个 受 抚养 人 ， 就 归 类 为 很 有 可 能 违约 。 

括号 中 的 数字 表示 符合 该 决策 准则 的 案例 的 数量 以 及 根据 该 决策 不 正确 分 类 的 案例 的 数 
量 。 例 如 ， 在 第 一 行 中 ，(358/44) 表示 有 385 个 案例 符合 该 决策 条 件 ， 有 44 个 案例 被 错误 
地 归 类 为 no， 也 就 是 说 不 太 可 能 违约 。 换 名 话说， 就 是 有 44 个 申请 者 确实 违约 了 ， 尽 管 模 
型 的 预测 与 此 相反 。 


有 些 决 策 树 中 的 决策 似乎 没有 逻辑 意义 。 为 什么 一 个 申请 者 的 信用 记录 很 好 

<、 却 很 有 可 能 违约 ， 而 那些 支票 余额 未 知 的 用 户 却 不 太 可 能 违约 呢 ? 像 这 样 巴 
盾 的 规则 有 时 候 会 发 生 ， 它 们 可 能 反映 了 数据 中 的 一 个 真实 的 模式 ， 或 者 它 
们 可 能 是 统计 中 的 异常 值 。 


在 决策 树 输出 后 , summary (credit_model) 输出 一 个 混 消 和 矩阵， 这 是 一 个 交叉 列表 ， 
表示 模型 对 训练 数据 错误 分 类 的 记录 数 : 


Evaluation on training data (900 cases) : 


Decision Tree 
Size Errors 
66 125(13.9$%) << 


(a) (b) <-classified as 
609 上) (a): class no 
102 166 (b): class yes 


字段 Brrors 说 明 模 型 对 除了 900 个 训练 案例 中 的 125 个 案例 以 外 的 所 有 案例 进行 了 正 
确 的 分 类 ， 错 误 率 为 13.9%。 共 有 23 个 真实 值 为 no 的 个 案 被 错误 地 归 类 为 yes( 错 误 肯 定 )， 


waibbt.com DODDOOODODOD 


第 5 章 ”分 而 治之 一 一 应 用 决策 树 和 规则 进行 分 类 *** 95 


而 有 102 个 真实 值 为 yes 的 个 案 被 错误 地 归 类 为 no (错误 否定 )。 
众所周知 ， 决 策 树 有 一 种 过 度 拟 合 训练 数据 模型 的 倾向 。 由 于 这 个 原因 ， 训 练 数据 中 报 
告 的 错误 率 可 能 过 于 乐观 ， 因 此 ， 基 于 测试 数据 集 来 评估 决策 树 模 型 是 非常 重要 的 。 


5.2.4 第 4 步 一 一 评估 模型 的 性 能 
为 了 将 决策 树 应 用 于 测试 数据 集 ， 我 们 使 用 predict () 图 数 ， 如 下 代码 所 示 : 


> credit pred <- predict (credit model, credit test) 

这 样 就 创建 了 一 个 预测 分 类 值 向 量 ， 我 们 可 以 使 用 gmodels 添加 包 中 的 CrossTable() 需 
数 将 它 与 真实 的 分 类 值 比较 。 设 定 参数 prop.c 和 prop.r 为 FALSE 来 删除 表 中 列 与 行 的 
百分比 ， 剩 余 的 百分比 (prop .t) 表示 单元 格 中 的 记录 数 占 总 记录 数 的 百分比 。 


> library (gmodels) 

> CrossTable (credit test$default, credit pred, 
prop.chisqg = FALSE, prop.c = FALSE, prop.r = FALSE, 
dnn = c('actual default', 'predicted default')) 


输出 的 结果 如 下 表 所 示 : 





| 
actual default | | yes | Row Total | 
no | 57 | 11 | 68 | 
| 0.570 0.110 | | 
yes | 16 | 16 | 32 | 
| 0.160 | 0.160 
Column Total | 73 | 27 100 


在 100 个 贷款 申请 者 的 记录 测试 中 ， 我 们 的 模型 正确 预测 了 57 个 申请 者 确实 没有 违约 ， 
而 16 个 申请 者 确实 违约 了 ， 模 型 的 准确 率 为 73%， 而 错误 率 为 27%。 在 训练 数据 上 模型 的 
性 能 略 差 ， 但 并 不 令 人 意外 ， 因 为 对 于 未 知 的 数据 ， 模 型 的 性 能 往往 会 差 些 。 另 外 请 注意 ， 
该 模型 只 正确 预测 了 测试 数据 中 32 个 贷款 违约 者 的 50%。 遗 憾 的 是 ， 这 种 类 型 的 错误 是 一 
个 潜在 的 非常 严重 的 错误 。 让 我 们 看 看 ， 再 多 一 点 努力 ， 我 们 是 否 能 够 改善 预测 结果 ，。 


5.2.5 ”第 5 步 一 一 提高 模型 的 性 能 

我 们 模型 的 错误 率 很 可 能 过 高 而 不 能 将 其 应 用 于 实时 的 信用 评估 申请 中 。 事 实 上 ， 如 果 
该 模型 对 每 一 个 测试 案例 的 预测 结果 为 “没有 违约 ”( no default)， 那 么 此 时 模型 的 正确 率 将 
为 68% 一 一 结果 并 不 比 我 们 的 模型 差 太 多 ， 但 需要 少 得 多 的 努力 ! 从 900 个 案例 中 预测 贷款 
违约 似乎 是 一 个 具有 挑战 性 的 问题 。 

更 糟糕 的 是 ,我 们 的 模型 在 识别 贷款 违约 申请 者 上 的 性 能 尤其 不 佳 。 幸 运 的 是 ， 有 几 种 
简单 的 方法 可 以 用 来 调整 C5.0 算法 ， 这 可 能 有 助 于 提高 模型 的 性 能 ， 无 论 是 整体 性 能 还 是 
对 于 更 大 代价 的 错误 。 
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1. 提高 决策 树 的 准确 性 


C5.0 算法 对 C4.5 算法 改进 的 一 种 方法 就 是 通过 加 入 自 适 应 增强 ( adaptive boosting) 算 
法 。 这 是 许多 决策 树 构建 的 一 个 过 程 ， 然 后 这 些 决 策 树 通过 投票 表决 的 方法 为 每 个 案例 选择 
最 佳 的 分 类 。 


boosting 算法 的 思想 很 大 程度 上 建立 在 Rob Schapire 和 Yoav Freund 的 研究 

LE 上 。 欲 了 解 更 多 的 信息 ， 可 尝试 在 网 上 搜索 他 们 的 文章 或 者 他 们 最 近 的 教 

一 材 :《 Boosting: Foundations and Algorithms Understanding Rule Learners 》(The 
MIT Press, 2012)。 


由 于 boosting 算法 可 以 更 广泛 应 用 于 任何 机 器 学 习 算法 ， 所 以 在 本 书 的 第 11 章 中 有 该 
算法 的 详细 信息 。 就 目前 而 言 ， 只 需要 说 明 boosting 算法 植 根 在 这 样 一 种 概念 中 : 通过 将 很 
多 能 力 较 弱 的 学 习 算 法 组 合 在 一 起 ， 就 可 以 创建 一 个 团队 ， 这 比 任何 一 个 单独 的 学 习 算法 都 
强 得 多 。 每 一 个 模型 都 有 一 组 特定 的 优点 和 缺点 ， 对 于 特定 的 问题 ， 可 能 更 好 ， 也 可 能 更 
差 ， 而 使 用 优点 和 缺点 互补 的 多 种 学 习 方法 的 组 合 ， 可 以 显著 地 提高 分 类 器 的 准确 性 。 

c5.0() 函数 可 以 很 轻松 地 将 boosting 算法 添加 到 C5.0 决策 树 中 。 我 们 只 需要 添加 一 个 
额外 的 参数 trials， 表 示 在 模型 增强 团队 中 使 用 的 独立 决策 树 的 数量 。 参 数 trials 设置 
了 一 个 上 限 ， 如 果 该 算法 识别 出 额外 的 试验 似乎 并 没有 提高 模型 的 准确 性 ， 那 么 它 将 停止 添 
加 决策 树 。 我 们 将 开始 于 10 个 试验 (trials=10 ) 一 个 已 经 成 为 事实 标准 的 数字 ， 因 
为 研究 表明 ， 这 能 降低 关于 测试 数据 大 约 25% 的 错误 率 。 


> credit boost10 <- C5.0(credit train[-17], credit train$default, 
trials = 10) 


在 查看 由 此 生成 的 模型 时 ， 我 们 可 以 看 到 添加 了 一 些 用 来 标识 变化 的 额外 的 行 。 


> credit boost10 
Number of boosting iterations: 10 
Average tree size: 56 


通过 10 次 迭代 ， 决 策 树 变 小 。 如 果 愿 意 ， 可 以 在 命令 提示 符 下 ， 通 过 输入 summary 
(credit_boost10) 看 到 所 有 的 10 棵 决策 树 。 
让 我 们 来 看 看 我 们 训练 数据 的 表现 : 


> summary (Credit_boost10) 





(a) (b) <-classified as 
626 6 (a): class no 
25 243 (b): class yes 


在 900 个 训练 案例 中 ， 该 分 类 器 犯 了 31 个 错误 ， 错误 率 为 3.4%。 我 们 注意 到 在 加 入 
boosting 算法 之 前 ， 训 练 案例 的 错误 率 为 13.9%。 因 此 ， 与 之 前 相 比 ， 这 是 很 大 的 提高 。 然 
而 ， 这 仍 有 待 观察 ， 我 们 是 否 能 在 测试 数据 中 看 到 类 似 的 提高 呢 ? 让 我 们 一 起 来 看 看 : 


> credit boost pred10 <- predict (credit boost10, credit test) 
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> CrossTable (credit test$default, credit boost pred10, 
prop.chisq = FALSE, prop.c = FALSE, prop.r = FALSE, 
dnn = c('actual default', 'predicted default')) 


输出 的 结果 如 下 表 所 示 : 


| 
| | | 
no | | 8 68 | 
| 0.600 | 0.080 | 
yes | 5 | | 32 | 
| 0.150 | 0.170 | | 
Column Total 75 | 25 100 | 


这 里 ， 在 增强 模型 的 性 能 后 ， 我 们 将 总 的 错误 率 由 之 前 的 27% 下 降 到 现在 的 23%。 这 似 
乎 并 不 像 是 一 个 大 的 增益 ， 但 正如 我 们 所 和 希望 的 ， 它 合理 地 降低 了 近 25% 的 错误 率 。 另 一 方 
面 ， 模 型 在 预测 贷款 违约 方面 仍然 做 得 不 好 ， 有 15 / 32 = 47% 是 错误 的 。 缺 乏 更 大 的 提高 可 
能 是 由 于 我 们 采用 的 是 一 个 相对 较 小 的 训练 数据 集 ， 也 可 能 这 本 身 就 是 一 个 很 难 解决 的 问题 。 

如 上 述 所 说 ， 如 果 boosting 算法 可 以 很 容易 实现 ， 那 么 为 什么 不 在 默认 情况 下 ， 将 它 应 
用 于 每 一 棵 决策 树 呢 ? 原因 有 两 方面 。 首 先 ， 如 果 建 立 一 棵 决策 树 需 要 花费 大 量 的 计算 时 间 ， 
那么 建立 很 多 决策 树 可 能 在 计算 上 是 不 可 行 的 。 其 次 ， 如 果 训 练 数据 很 杂乱 ， 那 么 boosting 
算法 可 能 根本 不 会 改进 模型 的 性 能 。 不 过 ， 如 果 需 要 更 高 的 准确 性 ， 那 还 是 值得 尝试 一 下 。 


2. 犯 一 些 比 其 他 错误 更 严重 的 错误 


给 一 个 很 有 可 能 违约 的 申请 者 一 笔 贷 款 是 一 种 很 严重 的 错误 。 一 种 减少 错误 地 和 否定 申请 
者 数量 的 方法 是 拒绝 大 量 处 于 边界 线 的 申请 者 。 数 年 内 ， 如 果 贷 款 者 从 来 没有 还 钱 ， 那 么 银 
行 所 蒙受 的 大 量 损失 就 远 远 超过 了 它 从 有 风险 的 贷款 者 身上 赚 到 的 利息 值 。 

为 了 防止 一 棵 决策 树 犯 更 严重 的 错误 ，C5.0 算法 能 够 允许 我 们 将 一 个 惩罚 因子 分 配 到 不 
同类 型 的 错误 上 。 这 些 惩罚 因子 设 定 在 一 个 代价 矩阵 中 ， 用 来 指定 每 种 错误 相对 于 其 他 任何 
错误 有 多 少 倍 的 严重 性 。 假 设 我 们 认为 一 个 贷款 违约 者 使 银行 损失 了 4 倍 ， 不 亚 于 一 个 错失 
的 机 遇 ， 则 代价 矩阵 可 以 定义 为 : 

> error cost <- matrix(c(0, 1, 4, 0), nrow = 2) 

这 样 就 创建 了 一 个 2 行 2 列 的 矩阵 ， 它 与 我 们 一 直 研 究 的 混淆 矩阵 相 比 ， 排 列 上 稍 有 不 
同 。 行 名 和 列 名 中 的 代码 1 表示 no，2 表示 yes。 行 用 来 表示 预测 值 ， 列 用 来 表示 实际 值 : 


> error_cost 
[,1] [,2] 

Lad;] 0 4 

[2,] 1 0 


正如 该 矩阵 所 定义 的 ， 当 该 算法 正确 地 将 一 个 案例 分 类 为 no 或 者 yes 时 ， 此 时 没有 分 配 
代价 ， 但 是 相对 于 代价 为 1 的 错误 肯定 ( false positive) 的 案例 ， 错 误 和 否定 (false negative) 的 
案例 的 代价 为 4。 为 了 看 到 这 样 做 是 如 何 影响 分 类 的 ， 我 们 将 通过 使 用 C5.0(0) 函数 中 的 参数 


wwaibbt.com DODDODDOD 


98 。“。 机 器 学 习 与 R 语 言 


costs， 将 其 应 用 到 我 们 的 决策 树 中 - 我 们 将 以 其 他 方式 应 用 与 前 面 一 样 的 步骤 : 


> credit cost <- C5.0(credit train[-17], credit train$default, 
costs = error cost) 
> credit cost pred <- predict (credit cost, credit test) 
> CrossTable (credit test$default, credit cost pred, 
prop.chisqg = FALSE, prop.c = FALSE, prop.r = FALSE, 
dnn = c('actual default', 'predicted default')) 


这 将 生成 如 下 的 混淆 矩阵 : 


| 
| 
no | | 26 | 68 
| 0.420 0.260 | | 
yes | | 26 | 32 | 
| 0.060 | 0.260 | | 
Column Total | 48 | 52 | 100 | 


与 最 好 的 增强 模型 相 比 ， 这 个 版 本 的 模型 整体 上 犯 了 更 多 的 错误 : 相对 于 最 好 的 增强 模 
型 的 23%， 这 里 为 32%。 然 而 ， 错 误 的 类 型 却 相差 很 大 。 前 面 的 模型 对 几乎 一 半 的 贷款 违约 
者 错误 分 类 ， 而 在 这 个 模型 中 ， 只 有 25% 的 贷款 违约 者 被 预测 为 非 违约 者 。 如 果 我 们 的 代价 
估算 是 准确 的 ， 那 么 以 增加 错误 肯定 为 代价 ， 减 少 错误 和 否定 的 这 种 折 中 是 可 以 接受 的 - 


5.3 ”理解 分 类 规则 


分 类 规则 代表 的 是 if-else 逻辑 语句 形式 的 知识 ， 可 用 来 对 未 标记 的 案例 指定 一 个 分 类 。 
未 标记 的 案例 依据 前 件 和 后 件 的 概念 而 指定 ， 而 前 件 和 后 件 就 构成 了 一 个 假设 ， 即 “如 果 这 
种 情况 发 生 ， 那 么 那 种 情况 就 会 发 生 。” 一 个 简单 的 规则 或 许 会 这 样 描 述 :“ 如 果 硬 盘 发 出 味 
噶 声 ， 那 么 硬盘 将 出 现 故障 。” 前 件 是 由 特征 值 的 特定 组 合 构成 的 ， 而 在 满足 规则 的 条 件 下 ， 
后 件 描述 用 来 指定 的 分 类 值 。 

规则 学 习 经 常 以 一 种 类 似 于 决策 树 学 习 的 方式 被 使 用 。 与 决策 树 一 样 ， 规 则 学 习 也 可 以 
用 来 为 今后 的 行动 形成 认识 ， 比 如 : 

口 确定 导致 机 械 设备 出 现 硬件 故障 的 条 件 : 

口 描述 人 和 群 的 界定 特征 用 于 客户 细 分 . 

口 发 现 先 于 股票 市 场 上 股票 价格 大 跌 或 者 大 涨 的 市 况 。 

男 一 方面 ， 对 于 某 些 任务 ， 规 则 学 习 相对 于 决策 树 有 明显 的 优势 。 与 决策 树 不 同 的 是 ， 
决策 树 必须 从 上 至 下 地 应 用 ， 而 规则 是 单独 存在 的 事实 。 根 据 相 同 数据 建立 的 模型 ， 规 则 学 
习 的 结果 往往 比 决策 树 的 结果 更 简洁 、 更 直接 、 更 容易 理解 。 

UL 你 将 在 本 章 的 后 面 看 到 ， 可 以 使 用 决策 树 生成 规则 。 那 么 ， 为 什么 我 们 还 要 

费心 单独 研究 规则 学 习 算法 呢 ? 原因 是 ， 决 策 树 会 给 任务 带 来 一 组 特定 的 偏 
差 ， 而 规则 学 习 可 以 通过 直接 识别 规则 而 避免 偏差 。 
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规则 学 习 通 常 应 用 于 以 名 义 特征 为 主 或 全 部 是 名 义 特征 的 问题 。 规 则 学 习 擅长 识别 偶发 
事件 ， 即 使 偶发 事件 只 是 因为 特征 之 间 非 常 特殊 的 相互 作用 才 发 生 的 。 


5.3.1 独立 而 治之 
规则 学 习 分 类 算法 使 用 了 一 种 称 为 独立 而 治之 的 探索 法 。 这 个 过 程 包括 确定 训练 数据 中 
履 盖 一 个 案例 子 集 的 规则 ， 然 后 再 从 剩余 的 数据 中 分 离 出 该 分 区 。 随 着 规则 的 增加 ， 更 多 的 
数据 子 集会 被 分 离 ， 直 到 整个 数据 集 都 被 覆盖 ， 不 再 有 案例 残留 。 
分 而 治之 和 独立 而 治之 之 间 的 区 别 是 很 小 的 。 或 许 ， 区 分 这 两 种 方法 的 最 佳 
» 方式 就 是 考虑 决策 树 中 每 个 决策 节点 是 会 受到 过 去 决策 历史 的 影响 。 而 规则 
学 习 不 存在 这 样 的 沿袭 ， 一 旦 规则 学 习 算 法 分 离 出 一 组 案例 ， 下 一 组 案例 可 
能 会 根据 完全 不 同 的 特征 ， 以 完全 不 同 的 顺序 分 离 出 来 。 


想象 规则 学 习 过 程 的 一 种 方式 就 是 通过 创建 用 于 标识 分 类 值 的 越 来 越 具体 的 规则 来 考虑 
向 下 挖掘 〈( 钻 取 ) 数据 。 假设 任务 是 通过 创建 规则 来 确定 一 个 动物 是 否 是 哺乳 动物 。 你 可 以 
用 一 个 大 的 空间 来 描述 所 有 动物 ， 如 下 图 所 示 。 





规则 学 习 算 法 通过 利用 已 有 的 特征 来 开始 寻找 同类 群体 。 例 如 ， 根 据 衡 量 物种 是 在 陆 
地 、 海 洋 ， 还 是 空中 行走 的 特征 ， 第 一 条 规则 可 能 表明 任何 陆地 动物 都 是 哺乳 动物 : 


所 有 动物 
| 哺乳 动物 
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你 是 否 注意 到 这 条 规则 存在 问题 呢 ? 如 果 仔 细 看 ， 你 可 能 会 注意 到 青蛙 是 两 栖 动 物 ， 而 
不 是 哺乳 动物 。 因 此 ， 规 则 需要 更 具体 一 点 儿 。 让 我 们 进一步 细 化 规则 ， 表 明 哺 乳 动物 是 在 
陆地 上 行走 ， 并 且 有 一 条 尾巴 : 





如 上 图 所 示 ， 更 具体 的 规则 生成 了 一 个 全 部 是 哺乳 动物 的 子 集 。 因 此 ， 该 子 集 可 以 从 
其 他 数据 中 分 离 出 来 ， 而 且 可 以 通过 定义 额外 的 规则 来 确定 剩余 的 哺乳 动物 蝙 蝙 。 一 个 潜在 
的 将 蝙蝠 从 剩余 的 其 他 动物 中 区 分 出 来 的 特征 是 其 有 皮毛 。 根 据 这 个 特征 建立 并 利用 这 个 规 
则 ， 然 后 我 们 就 能 正确 识别 所 有 的 动物 : 


所 有 动物 





这 时 ， 由 于 所 有 的 训练 案例 都 被 分 类 了 ， 所 以 规则 学 习 过 程 就 会 停止 。 我 们 一 共 学 习 了 
3 个 规则 : 

口 在 陆地 上 行走 且 有 尾巴 的 动物 是 哺乳 动物 。 

口 如 果 动 物 有 皮毛 ， 那 么 它 就 是 哺乳 动物 。 

口 否则 ， 该 动物 不 是 哺乳 动物 。 

前 面 的 例子 说 明 规则 是 如 何 逐 步 分 离 出 越 来 越 大 的 数据 分 区 ， 最 终 将 所 有 案例 分 类 。 因 
为 数据 的 利用 是 基于 先 到 先 得 的 思想 ， 所 以 分 而 治之 和 独立 而 治之 算法 又 称 为 贪 焚 (学 习 ) 
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算法 。 


< 、 贪 焚 算法 一 般 都 更 有 效率 ， 但 对 于 特定 的 数据 集 ， 它 并 不 保证 生成 最 佳 的 规 
el 则 或 者 生成 的 规则 数量 最 少 。 


由 于 规则 看 起 来 覆盖 部 分 数据 ， 所 以 独立 而 治之 算法 又 称 为 覆盖 算法 ， 规 则 称 为 覆盖 规 
则 。 下 一 节 将 通过 研究 一 个 简单 的 规则 学 习 算 法 来 学 习 获 盖 规 则 在 实际 中 是 如 何 应 用 的 。 然 
后 ， 我 们 将 研究 一 个 较 复杂 的 规则 学 习 算 法 ， 并 将 这 两 个 算法 都 应 用 于 现实 世界 的 问题 。 


5.3.2” 单 规则 ( 1R ) 算法 

设想 作为 电视 游戏 节目 的 一 部 分 ， 有 一 个 均匀 分 成 10 块 并 涂 色 的 轮 盘 ， 其 中 ，3 块 涂 成 
红色 ，3 块 涂 成 蓝 色 ， 还 有 4 块 涂 成 白色 。 在 轮 盘 转动 之 前 ， 你 会 被 要 求 选择 其 中 一 种 颜色 。 
当 轮 盘 停止 转动 时 ， 如 果 显 示 的 颜色 与 你 的 预测 相符 ， 你 就 会 赢得 一 份 大 额度 的 现金 奖励 。 
你 应 该 选择 什么 颜色 呢 ? 

如 果 选 择 白色 ,你 当然 更 容易 赢得 奖励 ， 因 为 这 是 轮 盘 上 最 常见 的 颜色 。 很 显然 ， 这 个 
游戏 节目 有 点 可 笑 ， 但 它 演示 了 最 简单 的 分 类 器 ZeroR， 一 个 规则 学 习 算法 ， 从 字面 上 看 没 
有 规则 学 习 (因此 而 得 名 )。 对 于 每 一 个 未 标记 的 案例 ， 不 用 考虑 它 的 特征 值 就 会 把 它 预 测 为 
最 常见 的 类 。 

单 规则 算法 ( 1R 或 者 OneR) 通过 选择 一 个 单一 的 规则 来 提高 ZeroR 算法 的 性 能 。 虽 然 
这 看 起 来 可 能 过 于 简单 ， 但 是 它 往 往 表现 得 比 你 预期 的 要 好 。 正 如 Robert C. Holte 在 1993 年 
的 论文 “Very Simple Classification Rules Perform Well on Most Commonly Used Datasets” (in 
Machine Learning, Vol. 11, pp. 63-91) 中 所 讲 的 ， 对 于 许多 现实 世界 的 任务 ， 该 算法 的 准确 性 
可 以 接近 于 许多 更 复杂 算法 的 准确 性 。 该 算法 的 优点 和 和 缺点 如 下 表 所 示 。 












e 可 以 生成 一 个 单一 的 、 易 于 理解 的 、 人 类 可 读 的 经 验 法 则 
(大 拇指 规则 ) 

。 往往 表现 得 出 奇 地 好 

。 可 以 作为 更 复杂 算法 的 一 个 基准 


。 只 使 用 了 一 个 单一 的 特征 
。 可 能 会 过 于 简单 





该 算法 运作 的 方式 很 简单 。 对 于 每 一 个 特征 ， 基 于 相似 的 特征 值 1R 对 数据 分 组 。 然 后 ， 
对 于 每 一 个 数据 分 组 ， 该 算法 的 预测 类 为 占 多 数 的 类 。 规 则 错误 率 的 计算 基于 每 一 个 特征 ， 
犯 最 少 错误 的 规则 选 为 唯一 的 规则 。 

对 于 本 节 研 究 的 动物 数据 ， 下 表 显 示 了 该 算法 是 如 何 运 行 的 : 
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并 
向 
鱼 于 
青岩 否 

忌 是 

让 和 
T 走 途径 et sl 
中 

空中 

陆地 
陆地 
陆地 和 
陆地 | 一 | | 
海洋 


注 : 用 行走 途径 为 规则 : 


锚 误 率 =2/15 
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号 


凋 


an 


vi 
[I 





并 


并 


各 


位 
湖 


| 


是 


注 : 用 是 否 有 皮毛 为 规则 : 错误 率 =3/15。 


根据 Travels By (行走 途径 ) 这 一 特征 ， 我们 将 数据 分 为 3 组 : Air( 空 中 ) Land (陆地 ) 
和 Sea( 海 洋 )， 在 Air( 空 中 ) 组 和 Sea( 海 洋 ) 组 的 动物 被 预测 为 非 哺乳 动物 ， 而 Land( 陆 地 ) 
组 的 动物 被 预测 为 哺乳 动物 ， 这 样 就 导致 了 2 个 错误 : 蝙蝠 和 青蛙 。 根 据 Has Fur (皮毛 特 
征 ) 可 以 将 动物 分 为 两 组 ， 有 皮毛 的 动物 被 预测 为 哺乳 动物 ， 而 没有 皮毛 的 动物 被 预测 为 非 
哺乳 动物 ， 一 共 出 现 3 个 错误 : 猪 、 大 象 和 犀牛 。 由 于 Travels By (行走 途径 ) 特征 导致 了 
更 少 的 错误 ， 所 以 1R 算法 将 会 基于 Travels By (行走 途径 ) 返回 下 面 的 “一 个 规则 ”: 

口 如 果 该 动物 在 空中 行走 ， 那 么 它 就 不 是 哺乳 动物 。 

口 如 果 该 动物 在 陆地 上 行走 ,那么 它 就 是 哺乳 动物 。 

口 如 果 该 动物 在 海洋 中 行走 ， 那 么 它 就 不 是 哺乳 动物 。 

在 发 现 了 唯一 的 最 重要 的 规则 后 ， 该 算法 就 会 止 于 此 。 

很 明显 ， 该 算法 对 于 某 些 任务 来 说 可 能 过 于 简单 了 。 你 想 要 一 个 只 考虑 单一 症状 的 医 
疗 诊断 系统 吗 ? 或 者 你 想 要 一 个 只 基于 单一 因素 来 停止 或 者 加 速 车 的 自动 驾驶 系统 吗 ? 对 
于 这 些 类 型 的 任务 ， 一 个 更 复杂 的 规则 学 习 算 法 可 能 会 有 用 。 我 们 将 在 下 一 节 中 学 习 这 种 
算法 。 


5.3.3 ”RIPPER 算法 
早期 的 规则 学 习 算 法 受到 两 个 问题 的 困扰 。 第 一 ， 它 们 是 出 了 名 的 速度 慢 ， 使 得 它们 对 
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于 越 来 越 多 的 大 数据 (Big Data) 问题 效率 很 低 ; 第 二 ， 对 于 噪声 数据 ， 它 们 往往 不 准确 。 

解决 这 些 问题 的 第 一 步 是 由 Johannes Furnkranz 和 Gerhard Widmer 在 1994 年 的 一 篇 论 
文 “ Incremental Reduced Error Pruning” (Proceedings of the 11th International Conference on 
Machine Learning, pp. 70-77 ) 中 提出 来 的 。 该 增 量 减少 误差 修剪 算法 ( IREP) 使 用 了 生成 复 
杂 规 则 的 预 剪 枝 和 后 剪 枝 方法 的 组 合 ， 并 在 将 案例 从 全 部 数据 集 分 离 之 前 进行 修剪 。 虽 然 这 
种 策略 有 助 于 提高 规则 学 习 算 法 的 性 能 ， 但 往往 还 是 决策 树 表现 得 更 好 。 

随 着 1995 年 William W. Cohen 发 表 了 一 篇 具有 里 程 碑 意义 的 论文 “Fast Effective Rule 
Induction ”( Proceedings of the 12th International Conference on Machine Learning, pp. 115- 
123 )， 规 则 学 习 算 法 又 向 前 迈进 了 一 步 。 这 篇 论文 介绍 了 重复 增 量 修剪 (Repeated Incremental 
Pruning to Produce Error Reduction，RIPPER) 算法 ， 它 对 IREP 算法 进行 改进 后 再 生成 规则 ， 
它 的 性 能 与 决策 树 相 当 ， 甚 至 超过 决策 树 。 

规则 学 习 分 类 算法 的 演变 并 没有 到 此 为 止 ， 新 的 规则 学 习 算法 正 快速 地 提 
\ 软 、、 出 。 文 献 调查 表明 在 许多 其 他 算法 中 ， 有 IRPE++ 算法 、SLIPPER 算法 、 
TRIPPER 算法 等 。 


如 下 表 所 示 ，RIPPER 规则 学 习 算 法 的 优点 和 缺点 通常 可 与 决策 树 比较 ， 其 主要 优点 就 
是 可 能 生成 一 个 稍微 精简 的 模型 。 


缺点 
。 可 能 会 导致 违反 常理 或 者 专家 知识 的 规则 
。 处 理 数 值 型 数据 不 太 理 想 
。 性 能 有 可 能 不 如 更 复杂 的 模型 


优点 

e 生成 易于 理解 的 、 人 类 可 读 的 规则 

。 对 大 数据 集 和 噪声 数据 集 有 效 

。 通常 比 决策 树 产生 的 模型 更 简单 

RIPPER 算法 是 规则 学 习 算 法 经 过 多 次 迭代 进化 而 来 的 ， 是 用 于 规则 学 习 的 有 效 探 索 方 
法 的 一 个 组 合 。 由 于 该 算法 的 复杂 性 ， 所 以 其 技术 实现 细节 的 讨论 超出 了 本 书 的 范围 ， 但 
是 ， 它 可 以 笼统 地 理解 为 一 个 三 步 过 程 : 

1 ) 生长 。 

2 ) 修剪 。 

3 ) 优化 。 

生长 过 程 利用 独立 而 治之 技术 ， 对 规则 贪 焚 地 添加 条 件 ， 直 到 该 规则 能 完全 划分 出 一 
个 数据 子 集 或 者 没有 属性 可 用 于 分 割 。 与 决策 树 类 似 ， 信 息 增 益 准 则 可 用 来 确定 下 一 个 分 割 
属性 ， 当 增加 一 个 特 指 的 规则 而 箭 值 不 再 减 小 时 ， 该 规则 需要 立即 修剪 。 重 复 第 一 步 和 第 二 
步 ， 直 到 达到 一 个 停止 准则 ， 然 后 ， 使 用 各 种 探索 法 对 整套 的 规则 进行 优化 。 

RIPPER 算法 的 多 因素 规则 比 1R 算法 的 规则 更 复杂 ， 这 意味 着 RIPPER 算法 可 以 考虑 多 个 
属性 ， 比 如 “如 果 一 个 动物 可 以 飞 而 且 具 有 皮毛 ， 那 么 该 动物 就 是 哺乳 动物 。” 这 样 就 提高 
了 该 算法 对 复杂 数据 建 模 的 能 力 ， 但 与 决策 树 一 样 ， 这 也 意味 着 规则 很 快 就 会 变 得 更 加 难以 
理解 。 
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5.3.4 ”来 自决 策 树 的 规则 

分 类 规则 也 可 以 直接 从 决策 树 获得 。 从 一 个 叶 节点 开始 沿 着 树枝 回 到 树 根 ， 将 获得 一 系 
列 的 决策 ， 这 些 决策 可 以 组 合成 一 个 单一 的 规则 。 下 图 显示 了 如 何 根据 决策 树 构建 规则 来 预 
测 成 功 的 电影 。 


线 明星 数量 
ge 











> 


沿 着 从 根 节 点 到 每 个 叶子 的 路 径 ， 规 则 将 是 : 

1) 如 果 名 人 的 数量 少 ， 那 么 该 电影 将 属于 Box Office Bust (票房 朋 溃 ) 类 。 

2 ) 如 果 名 人 的 数量 多 且 预 算 高 ， 那 么 该 电影 将 属于 Mainstream Hit (主流 欢迎 ) 类 。 

3 ) 如 果 名 人 的 数量 多 且 预 算 低 ， 那 么 该 电影 将 属于 Critical Success (十 分 成 功 ) 类 。 

使 用 决策 树 生 成 规则 的 主要 缺点 是 由 此 产生 的 规则 通常 比 那些 由 规则 学 习 算法 学 到 的 规 
则 更 复杂 。 决 策 树 应 用 分 而 治之 策略 产生 的 结果 是 有 偏 的 ， 与 规则 学 习 产 生 的 结果 不 同 。 另 
一 方面 ， 从 决策 树 生成 的 规则 有 时 候 计 算 上 会 更 有 效 。 


~ 当 训 练 模型 时 ， 如 果 你 指定 rules=TRUE，C5 .0() 函数 就 可 以 利用 分 类 
规则 生成 一 个 模型 。 


5.4 ”例子 一 一 应 用 规则 学 习 识别 有 毒 的 蘑菇 


每 年 都 会 有 很 多 人 因为 援 人 有 毒 的 野生 蘑菇 生病 ， 有 时 甚至 死亡 。 由 于 许多 蘑菇 在 外 观 
上 彼此 都 非常 相似 ， 所 以 有 时 甚至 经 验 丰 富 的 蘑菇 采集 者 都 会 中 毒 。 

与 识别 其 他 有 毒 的 植物 (比如 有 毒 的 橡树 或 者 有 毒 的 常春 芯 ) 不 一 样 ， 识 别 一 种 野生 蘑 
菇 是 否 有 毒 或 者 是 否 可 以 食用 并 没有 明确 的 规则 ， 如 (有毒 的 常春 芯 ) “三 片 叶 子 ， 不 要 碰 它 
们 (leaves of three ,let them be)”。 更 加 复杂 的 是 ， 许 多 传统 规则 ， 比 如 “有 毒 的 蘑菇 颜色 鲜 
艳 "， 提 供 的 是 危险 的 或 者 具有 误导 性 的 信息 。 如 果 有 简单 、 清 晰 、 一 致 的 规则 可 用 来 识别 
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有 毒 的 蘑菇 ， 那 么 就 可 以 拯救 食物 采集 者 的 生命 
由 于 规则 学 习 算 法 的 优势 之 一 就 是 它们 能 生成 易于 理解 的 规则 ， 所 以 规则 学 习 算法 似乎 





很 适合 这 种 分 类 任务 。 然 而 ， 规 则 只 有 在 它们 准确 时 才 有 用 。 
5.4.1 第 1 步 收集 数据 


为 了 确定 用 来 区 分 有 毒 蘑菇 的 规则 ， 我 们 将 使 用 由 卡 内 基 梅 隆 大 学 的 Jeff Schlimmer 捐 
赠 给 UCI 机 器 学 习 数据 仓库 ( Machine Learning Data Repository) 的 蘑菇 数据 集 ( Mushroom 
dataset)。 原 始 数据 可 从 网 站 http://archive.ics.uci.edu/ml/datasets/Mushroom 获取 

该 数据 集 包 括 了 列 于 Audubon Society Field Guide to North American Mushrooms ( 1981 ) 
上 的 23 个 带菌 裙 的 蘑菇 品种 的 8124 个 蘑菇 案例 信息 。 在 食用 指南 中 ， 每 种 蘑菇 被 鉴定 为 
“肯定 可 以 食用 "、“ 肯 定 是 有 毒 的 ”和 “可 能 有 毒 ， 不 建议 食用 ”。 对 于 该 数据 集 的 日 的 而 言 ， 
最 后 一 类 和 “肯定 是 有 毒 的 ”一 类 合并 到 一 起 ， 从 而 最 终 有 两 个 类 : 有 毒 和 无 毒 。UCI 网 站 
提供 的 数据 字典 描述 了 蘑菇 案例 的 22 个 特征 ,包括 的 特征 有 上 蘑菇 帽 的 形状 、 蘑 菇 帽 的 颜色 、 
茧 菇 的 气味 、 菌 裙 的 大 小 和 颜色 、 蔡 的 形状 和 生存 的 环境 等 


x 本 章 使 用 的 蘑菇 数据 是 稍微 修正 过 的 版 本 。 如 果 你 打算 一 起 学 习 这 个 例子 ， 
以 那么 你 需要 从 Packt 出 版 社 的 网 站 下 载 mushrooms .csv 文件 ， 并 将 该 文件 
保存 到 R 的 工作 目录 下 


5.4.2 第 2 步 一 一 探索 和 准备 数据 


首先 ,我们 使 用 read .csv() 函数 导入 数据 来 进行 分 析 。 由 于 所 有 22 个 特征 和 目标 类 都 
是 名 义 变量 ， 所 以 在 这 种 情况 下 ,设置 stringsAsFactors=TRUE， 并 采用 自动 因子 转换 : 

> mushrooms <- read.csv("mushrooms.csv", stringsAsFactors = TRUE) 

正如 数据 字典 所 描述 的 ，str(mushrooms) 命令 的 输出 显示 了 该 数据 集 包 含 的 23 个 变量 的 
8124 个 观测 值 的 结构 信息 。 虽 然 函数 str () 的 大 多 数 输出 是 很 平常 的 ， 但 有 一 个 特征 值得 
一 提 ， 注 意 下 一 行 中 关于 veil_type 变量 有 什么 特别 之 处 吗 ? 

$ veil type : Factor w/ 1 level "partial": 1 11111... 

如 果 你 认为 一 个 因素 变量 只 有 一 个 水 平 值 是 很 奇怪 的 ， 那么 你 就 对 了 。 数 据 字典 列 出 
了 这 个 特征 的 两 种 水 平 partial 和 universal， 然而 我 们 数据 中 的 所 有 案例 都 分 类 为 
partial。 很 可 能 ， 这 个 变量 的 有 些 编码 是 不 正确 的 。 由 于 变量 veil_type 的 取 值 对 所 有 
案例 都 是 一 样 的 ， 所 以 它 不 能 为 预测 提供 任何 有 用 的 信息 。 使 用 下 面 的 命令 ， 将 该 变量 从 我 
们 的 分 析 中 删除 : 


> mushrooms$veil type <- NULL 


通过 将 NULL 赋 给 变量 veil type，R 从 蘑菇 数据 框 中 删除 了 这 个 变量 。 
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在 进一步 研究 之 前 ， 我 们 需要 快速 查看 数据 集中 蘑菇 类 型 这 一 类 变量 的 分 布 。 如 果 分 类 
水 平 的 分 布 很 不 均匀 (这 意味 着 它们 严重 失衡 )， 则 有 些 模型 ， 比 如 规则 学 习 ， 在 预测 少数 类 
时 会 有 困难 


> table (mushrooms$type) 
edible poisonous 
4208 3916 


大 约 52% 的 蘑菇 案例 ( N=4208 ) 是 可 食用 的 ， 而 大 约 48% 的 蘑菇 案例 ( N=3916 ) 是 有 
毒 的 。 由 于 分 类 水 平 大 致 被 分 割 成 50/50， 所 以 我 们 并 不 需要 担心 数据 的 不 平衡 。 

为 了 达到 这 次 试验 的 目的 ,我们 把 蘑菇 数据 中 的 8124 个 案例 看 做 一 个 所 有 可 能 的 野生 
蘑菇 的 完备 集 。 这 是 一 个 重要 的 假设 ， 因 为 该 假设 意味 着 我 们 不 需要 从 训练 数据 中 保存 一 些 
案例 来 达到 测试 的 目的 。 我 们 没有 尝试 研究 规则 来 覆盖 不 可 预测 的 蘑菇 类 型 ， 我 们 只 是 试图 
找到 能 准确 描绘 已 知 蘑菇 类 型 这 一 完备 集 的 规则 。 因 此 ， 我 们 可 以 依据 相同 的 数据 来 建立 模 
型 并 测试 模型 。 


5.4.3 ”第 3 步 一 一 基于 数据 训练 模型 

如 果 我 们 基于 该 数据 训练 一 个 假想 的 ZeroR 分 类 器 ， 那 么 该 分 类 器 会 做 出 什么 样 的 预 
测 呢 ? 由 于 ZeroR 忽略 了 所 有 的 特征 ， 只 是 预测 目标 的 模式 ， 所 以 用 通俗 易 懂 的 话说 ， 就 是 
它 的 规则 会 这 样 陈 述 :“ 所 有 的 蘑菇 都 是 可 食用 的 ”显然 ， 这 不 是 一 个 很 有 用 的 分 类 器 ， 因 
为 它 会 导致 蘑菇 采集 者 生病 或 者 死亡 于 近 一 半 的 蘑菇 案例 。 而 我 们 的 规则 需要 比 该 基准 好 得 
多 ， 所 以 可 以 提供 能 够 发 布 的 安全 建议 。 同 时 ， 我 们 也 需要 很 容易 记 住 的 简单 规则 。 

由 于 简单 规则 通常 极 具 预测 性 ， 所 以 让 我 们 看 看 对 于 mushroom 数据 ， 一 个 非常 简单 
的 规则 学 习 算法 是 如 何 表 现 的 。 为 此 ， 我 们 将 应 用 1R 分 类 器 ， 它 能 够 识别 对 于 目标 类 最 具 
有 预测 性 的 单一 特征 ， 并 利用 该 特征 构建 一 个 规则 集 。 

我 们 将 使 用 RWeka 包 中 称 为 oneR() 的 函数 来 实现 1R 算法 。 你 可 能 还 记得 在 第 1 章 中 ， 
我 们 已 经 安装 了 RWeka 包 。 如 果 你 还 没有 安装 它 ， 你 需要 使 用 install .packages ("RWeka") 
命令 ， 并 在 你 的 系统 上 安装 Java (请 参考 安装 说 明了 解 更 多 详细 信息 )。 这 些 步骤 完成 后 ， 通 
过 键入 1ibrary (RWeka) 来 加 载 RWeka 包 . 

oneR () 使 用 R 中 的 公式 语法 来 指定 要 训练 的 模型 。 其 公式 语法 使 用 运算 符 ~ ( 称 为 波 
浪 号 ) 表示 一 个 目标 变量 和 它 的 预测 变量 之 间 的 关系 。 需 要 学 习 的 类 变量 放 在 波浪 号 的 左 侧 ， 
预测 变量 写 在 波浪 号 的 右 侧 ， 用 运算 符 + 分 隔 。 如 果 你 想 在 类 变量 y 和 预测 变量 xl 与 x2 
之 间 建 立 关 系 ， 你 需要 写成 公式 : y~x1+x2。 如 果 你 想 在 模型 中 包含 所 有 的 变量 ， 你 可 以 使 
用 专业 术语 …。 例 如，Yy~ . 指定 y 和 数据 集中 所 有 其 他 特征 的 关系 。 


\， ”RR 中 的 公式 语法 被 RR 中 的 很 多 函数 使 用 ， 并 提供 了 一 些 强大 的 功能 来 描述 预 
上 风灾 重 之 间 的 关系 。 我 们 将 会 在 后 面 的 章节 中 探讨 其 中 的 一 些 功能 ， 然 而 ， 
如 果 你 渴望 先睹为快 ， 可 随时 使 用 ?formula 命令 来 阅读 帮助 文件 。 
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1R 分 类 规则 语法 
应 用 RWeka 添加 包 中 的 函数 OneR() 
创建 分 类 器 : 


m <- OneR(class ~ predictors, data = mydata ) 

。 class: 是 mydata 数据 框 中 需要 预测 的 那 一 列 

e predictors: 为 一 个 公式 ， 用 来 指定 mydata 数据 框 中 用 来 进行 预测 的 特征 
e data: 为 包含 class 和 predictors 所 要 求 的 数据 的 数据 框 

该 函数 返回 一 个 IR 模型 对 象 ， 该 对 象 能 够 用 于 预测 

进行 预测 : 

p <- predict (m, test) 

e m: 由 函数 oneR () 训练 的 一 个 模型 

e test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 创建 分 类 器 的 训练 数据 有 同样 的 特征 。 
该 函数 将 返回 一 个 含有 预测 的 类 别 值 的 向 量 。 

例子 : 


mushroom classifier <- OneR(type ~ odor + cap_color, 

data = mushroom train) 

mushroom prediction <- predict (mushroom classifier, 
mushroom test) 





使 用 公式 type~.， 当 构建 算法 规则 来 预测 type 时 ， 将 允许 第 一 个 规则 学 习 算 法 
OneR () 考虑 mushroom 数据 中 所 有 可 能 的 特征 : 


> mushroom 1R <- OneR(type ~ ., data = mushrooms) 
为 了 查看 该 算法 创建 的 规则 ,可 以 输入 分 类 器 对 象 的 名 称 , 在 这 种 情况 下 , 输入 mushroom_1R: 


> mushroom_ 1R 


odor: 
almond -> edible 
anise -> edible 
creosote -> poisonous 
fishy -> poisonous 
foul -> poisonous 
musty -> poisonous 
none -> edible 
pungent -> poisonous 
spicy -> poisonous 

(8004/8124 instances correct) 


在 输出 的 第 一 行 ， 我 们 看 到 特征 odor (气味 ) 被 选 为 规则 生成 。 特 征 odor 的 类 别 ， 比 
如 almonqd ( 禁 仁 味 )、anise ( 茄 香味 ) 等 ， 注 明 蘑菇 是 否 是 可 食用 的 或 者 是 有 毒 的 规则 。 
例如 ， 如 果 蘑 菇 闻 起 来 fishy ( 腥 味 )、foul ( 自 味 )、musty ( 考 味 )、pungent ( 刺 鼻 )、 
spicy (辛辣 ) 或 者 像 creosote ( 木 焦 油 )， 那 么 该 蘑菇 很 可 能 是 有 毒 的 。 另 一 方面 ， 更 加 
令 人 愉悦 的 气味 ， 像 almond ( 禁 仁 味 )、anise ( 茄 香 味 ) (或 者 none， 根 本 没有 气味 )， 则 
表明 是 可 食用 的 蘑菇 。 对 于 蘑菇 采集 的 食用 指南 ， 这 些 规 则 可 能 归纳 在 一 个 单一 的 简单 经 验 
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规则 (大 拇指 规则 ) 里 :“ 如 果 蘑 菇 闻 起 来 不 好 吃 ， 那 么 它 很 可 能 是 有 毒 的 。 


5.4.4 第 4: 评估 模型 的 性 能 


输出 的 最 后 一 行 表 明 该 规则 正确 地 指定 了 8124 个 蘑菇 案例 中 的 8004 个 案例 ， 正 确 率 接 
近 99%。 我 们 可 以 使 用 summary () 函数 获得 关于 分 类 器 的 更 多 详细 信息 ， 如 下 面 的 例子 所 示 : 


> summary (mushroom 1R) 





=== Summary === 

Correctly Classified Instances 8004 98.5229 $ 
Incorrectly Classified Instances 120 1.4771 多 
Kappa statistic 0.9704 

Mean absolute error 0.0148 

Root mean squared error 0.1215 
Relative absolute error 2.958 龟 
Root relative squared error 24.323 $ 
Coverage of cases (0.95 level) 98.5229 % 
Mean rel. region size (0.95 level) 50 和 
Total Number of Instances 8124 


== Confusion Matrix === 


a b <-- classified as 
4208 0 | a = edible 
120 3796 | b = poisonous 


标记 为 summary 的 这 部 分 列 出 了 用 来 衡量 1R 分 类 器 性 能 的 很 多 不 同 的 指标 。 由 于 我 
们 将 在 第 10 章 中 介绍 其 中 很 多 的 统计 量 ， 所 以 现在 我 们 将 忽略 它们 。 

标记 为 Confusion Matrix 的 这 部 分 类 似 于 之 前 使 用 的 混 清 矩阵。 这 里 ,我们 可 以 看 
到 规则 在 哪里 出 现 了 问题 ， 表 中 列表 示 蘑 菇 的 真实 类 别 ， 而 表 中 的 行 表 示 预 测 值 。 注 释 显 示 
在 右 侧 ， 用 a=edible 和 b=poisonous 表示 。 左 下 角 的 值 120 表示 有 120 种 蘑菇 实际 上 
是 可 以 食用 的 ， 但 被 归 类 为 是 有 毒 的 。 另 一 方面 ， 没 有 有 毒 的 蘑菇 被 错误 地 归 类 为 可 食用 的 。 

基于 该 信息 ， 似 乎 我 们 的 1R 规则 实际 上 起 着 安全 的 作用 一 一 当 觅 食 蘑菇 时 ， 如 果 你 避 
免 倒 胃口 的 气味 ， 那 么 你 将 避免 吃 到 任何 有 毒 的 蘑菇 。 然 而 ， 你 可 能 会 错过 一 些 实际 上 可 
以 食用 的 蘑菇 。 考 虑 到 这 个 规则 学 习 算 法 只 使 用 了 一 个 单一 的 特征 ， 我 们 确实 做 得 不 错 。 关 
于 蘑菇 的 下 一 个 食用 指南 的 出 版 商 应 该 会 很 开心 。 不 过 ， 让 我 们 看 一 看 是 否 可 以 添加 一 些 规 
则 ， 从 而 开发 出 更 好 的 分 类 器 。 


5.4.5 第 5 步 一 一 提高 模型 的 性 能 

对 于 一 个 更 复杂 的 规则 学 习 算 法 ， 我 们 将 使 用 JRip() 函数 ， 一 个 基于 Java 实现 
的 RIPPER 规则 学 习 算法 。 与 我 们 之 前 使 用 的 1R 算法 的 实现 一 样 ，RWeka 包 中 已 包含 了 
JRip () 函数 。 如 果 你 还 没有 加 载 RWeka 添加 包 ， 请 务必 使 用 1ibrary (RWeka) 命令 来 
加 载 该 添加 包 。 
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RIPPER 分 类 规则 语法 
应 用 RWeka 添加 包 中 的 函数 JRip() 
创建 分 类 器 : 

m <- JRip(class ~ predictors, data = mydata ) 

e class: 是 mydata 数据 框 中 需要 预测 的 那 一 列 

e predictors: 为 一 个 R 公式， 用 来 指定 mydata 数据 框 中 用 来 进行 预测 的 特征 

e data: 为 包含 class 和 predictors 所 要 求 的 数据 的 数据 框 

该 函数 返回 一 个 RIPPER 模型 对 象 ， 该 对 象 能 够 用 于 预测 

进行 预测 : 

p <- predict (m, test) 

。 m; 由 函数 JRip () 训练 的 一 个 模型 

e test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 创建 分 类 器 的 训练 数据 有 同样 的 特征 
该 函数 将 返回 一 个 含有 预测 的 类 别 值 的 向 量 。 

例子 : 


mushroom classifier <- JRip(type ~ odor + cap color, 
data = mushroom train) 

mushroom prediction <- predict (mushroom classifier, 

mushroom test) 


如 语法 框 中 所 示 ， 训 练 JRip () 模型 的 过 程 与 我 们 之 前 训练 oneR () 模型 的 过 程 是 类 
似 的。 这 是 RWeka 包 中 函数 非常 好 的 优点 之 一 ， 而 且 算 法 之 间 的 语法 是 一 致 的 ， 这 样 使 得 
比较 许多 不 同 模型 的 过 程 变 得 很 简单 。 

让 我 们 来 训练 JRip () 规则 学 习 算 法 ， 正 如 我 们 对 oneR () 算法 所 做 的 那样 ， 允 许 它 
从 所 有 的 可 用 特征 中 选择 规则 : 

> mushroom JRip <- JRip(type ~ ., data = mushrooms) 


若 要 查看 规则 ， 输 入 分 类 器 的 名 称 : 


> mushroom JRip 








JRIP rules: 


(odor = foul) => type=poisonous (2160.0/0.0) 

(gill size = narrow) and (gill color = buff) => type=poisonous (1152.0/0.0) 
(gill size = narrow) and (odor = pungent) => type=poisonous (256.0/0.0) 
(odor = creosote) => type=poisonous (192.0/0.0) 

(spore print color = green) => type=poisonous (72.0/0.0) 

(stalk_ surface below ring = scaly) and (stalk surface above ring = silky) 
=> type=poisonous (68.0/0.0) 

(habitat = leaves) and (cap color = white) => type=poisonous (8.0/0.0) 
(stalk_ color above ring = yellow) => type=poisonous (8.0/0.0) 

=> type=edible (4208.0/0.0) 
Number of Rules : 9 


JRip () 分 类 器 从 mushroom 数据 中 学 习 了 9 条 规则 。 理 解 这 些 规则 的 一 种 简单 方法 就 
是 把 它们 当做 类 似 于 编程 逻辑 中 i£-else 语句 的 一 个 列表 。 前 3 条 规则 可 以 这 样 表 达 : 
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口 如 果 气 味 是 臭 的 ， 那 么 该 划 菇 类 是 有 毒 的 。 

口 如 果 菌 裙 的 尺寸 狭小 而 且 菌 裙 的 颜色 是 浅黄 色 的 ， 那 么 该 芯 菇 类 是 有 毒 的 。 

口 如 果 菌 裙 的 尺寸 狭小 而 且 气味 是 刺 鼻 的 ， 那 么 该 蘑菇 类 是 有 毒 的 。 

最 后 ， 第 9 条 规则 表示 不 属于 上 述 8 条 规则 的 任何 蘑菇 案例 都 是 可 食用 的 。 根 据 编程 凶 
辑 的 例子 ， 这 可 以 理解 为 : 

口 和 否则， 蘑菇 是 可 食用 的 。 

每 个 规则 后 面 的 数字 表示 被 规则 覆盖 的 案例 数 和 被 错误 分 类 的 案例 数 。 值 得 注意 的 是 ， 
使 用 这 9 个 规则 就 没有 被 错误 分 类 的 蘑菇 案例 。 困 此 ， 被 最 后 一 个 规则 覆盖 的 案例 数 正 好 等 
于 数据 中 可 食用 的 蘑菇 数量 (N=4208 ) 。 

下 图 给 出 了 规则 是 如 何 应 用 于 蘑菇 数据 的 一 个 大 致 的 说 明 。 如 果 你 把 椭圆 内 的 一 切 想 
象 成 所 有 的 蘑菇 品种 ， 规 则 学 习 算法 确定 特征 或 者 特征 集 ， 这 样 就 将 同类 的 分 到 了 较 大 的 组 
中 。 首 先 ， 该 算法 发 现 了 一 大 群 由 它们 的 恶臭 气味 唯一 区 分 开 来 的 有 毒 的 蘑菇 ; 其 次 ， 该 算 
法 发 现 了 较 小 的 并 且 更 具体 的 有 毒 的 蘑菇 群 。 通 过 确定 规则 才 盖 每 一 种 有 毒 的 蘑菇 品种 ， 剩 
下 来 的 芯 菇 就 都 是 可 食用 的 。 感 谢 大 自然 母亲 ， 由 于 每 一 种 蘑菇 品种 都 是 足够 独特 的 ， 所 以 
分 类 器 才能 够 达到 100% 的 正确 率 。 





5.5 总 结 


本 章 介绍 了 两 种 分 类 算法 ， 它 们 根据 特征 的 取 值 将 数据 进行 分 类 。 决 策 树 使 用 分 而 治之 
策略 来 创建 流程 图 ， 而 规则 学 习 使 用 独立 而 治之 的 数据 来 确定 合乎 逻辑 的 iE-else 规则 . 
即使 没有 统计 背景 ， 这 两 种 方法 产生 的 模型 都 可 以 被 理解 。 
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一 种 流行 的 且 可 以 灵活 配置 的 决策 树 算 法 是 C5.0 算法 。 使 用 C5.0 算法 创建 一 棵 决策 树 
来 预测 一 个 贷款 申请 者 是 否 会 违约 。 使 用 boosting 选项 和 cost-sensitive( 成 本 敏感 ) 误差 选项 ， 
能 够 提高 模型 的 准确 性 ， 并 且 可 以 避免 可 能 消耗 银行 更 多 钱 的 高 风险 贷款 。 

我 们 还 使 用 了 两 个 规则 学 习 算 法 ，1R 算法 和 RIPPER 算法 ,来 研究 用 于 识别 有 毒 蘑 妇 的 
规则 。1R 算法 使 用 了 一 个 单一 的 特征 ， 在 确认 很 有 可 能 致命 的 蘑菇 案例 时 ， 达 到 了 99% 的 
正确 率 。 另 一 方面 ， 由 更 复杂 的 RIPPER 算法 生成 的 一 组 9 个 规则 能 够 正确 识别 每 一 种 蘑菇 
的 可 食用 性 。 

本 章 仅 仅 涉及 如 何 应 用 决策 树 和 规则 的 表面 。 第 6 章 介 绍 称 为 回归 树 和 模型 树 的 方法 ， 
使 用 决策 树 预测 数值 型 数据 。 第 11 章 将 发 现 ， 决 策 树 的 性 能 可 以 通过 将 它们 组 合 在 一 个 称 
为 随机 森林 的 模型 中 而 得 到 提高 。 第 8 章 将 看 到 关联 规则 一 一 分 类 规则 的 关联 ， 如 何 被 用 来 
识别 交易 数据 中 的 商品 组 。 


wwaibbt.com DODODDOD 





第 6 章 : Colyrxier tc 


预测 数值 型 数据 一 一 回归 方法 


数学 关系 可 以 用 来 描述 日 常生 活 的 许多 方面 。 例 如 ， 一 个 人 的 体重 可 以 从 他 的 卡路里 摄 
和信 量 来 描述 ; 一 个 人 的 收入 与 他 的 受 教育 年 限 和 工作 经 验 相关 ; 再 次 当选 总 统 的 胜率 可 以 通 
过 民意 投票 的 支持 率 估计 。 

在 每 个 这 样 的 例子 中 ， 数 字 都 精确 地 说 明了 数据 元 素 是 如 何 相关 的 。 每 天 食用 额外 的 25 
万 卡路里 很 可 能 导致 每 个 月 增加 将 近 1 公斤 的 体重 ; 每 一 年 的 工作 经 验 在 年 薪 中 可 能 会 值 额 
外 的 1000 美元 ， 而 受 教育 年 限 可 能 会 值 2500 美元 ; 如 果 一 个 总 统 具 有 很 高 的 支持 率 ， 那 么 
他 更 加 有 可 能 连任 。 显 然 ， 这 些 类 型 的 方程 并 不 能 完美 地 模拟 每 个 案例 ， 但 一 般 而 言 ， 这 些 
规则 可 能 会 起 到 相当 好 的 效果 。 

在 统计 领域 中 ， 有 很 大 一 部 分 工作 介绍 用 于 估计 数据 元 素 之 间 这 种 数值 关系 的 方法 ， 其 
中 一 个 研究 领域 称 为 回归 分 析 。 这 些 方法 可 用 于 预测 数值 型 数据 以 及 量化 预测 结果 与 其 预测 
变量 之 间 关 系 的 大 小 及 强度 。 

本 章 将 学 习 如 何 将 回归 方法 应 用 到 你 自己 的 数据 中 。 治 着 本 章 的 思路 ， 你 将 学 习 : 

口 用 线性 回归 方法 来 拟 合 数据 方程 的 基本 统计 原则 和 它们 如 何 描述 数据 元 素 之 间 的 关系 。 

口 如 何 使 用 R 准备 数据 进行 回归 分 析 ， 定 义 一 个 线性 方程 并 估计 回归 模型 。 

口 如 何 使 用 称 为 回归 树 和 模型 树 的 混合 模型 ， 它 使 得 决策 树 可 用 来 预测 数值 型 数据 。 

到 现在 为 止 ， 我 们 只 研究 了 适用 于 分 类 的 机 器 学 习 方法 。 本 章 中 的 方法 可 以 让 你 解决 一 
系列 全 新 的 学 习 任 务 。 记 住 这 一 点 ， 那 我 们 开始 吧 。 


6.1 理解 回归 
回归 主要 关注 确定 一 个 唯一 的 因 变 量 (dependent variable)( 需 要 预测 的 值 ) 和 一 个 或 多 个 
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数值 型 的 自 变 量 ( independent variables) (预测 变量 ) 之 间 的 关系 。 我 们 首先 假设 因 变量 和 自 
变量 之 间 的 关系 遵循 一 条 直线 ， 即 线性 关系 。 


用 来 描述 数据 拟 合 线 过 程 的 “回归 ”( regression) 一 词 来 源 于 19 世纪 后 期 

< Francis Galton 苹 士 遗传 学 的 研究 中 ，。Galton 发 现 ， 尽 管 父 亲 的 身高 极 矮 或 
者 极 高 ， 但 是 他 们 儿子 的 身高 却 有 更 接近 于 平均 身高 的 趋势 ， 于 是 ， 他 称 这 
种 现象 为 “回归 平均 值 ”(regression to the mean ) 。 


你 可 能 还 记得 代数 中 是 以 类 似 于 y=atbx 的 斜 截 式 来 定义 直线 的 ， 其 中 , 了 是 因 变 量 ，x 
是 自 变量 。 在 这 个 公式 中 ,斜率 ( slope) b 表示 每 增加 一 个 单位 的 x， 直 线 会 上 升 的 高 度 ; 变 
量 a 表示 当 x=0 时 y 的 值 ， 它 称 为 截 距 ， 因 为 它 指 定 了 直线 穿 过 垂直 轴 时 的 位 置 
回归 方程 使 用 类 似 于 斜 截 式 的 形式 对 数据 建立 模型 。 该 机 融 的 工作 就 是 确定 & 和 b， 从 
而 使 指定 的 直线 最 适合 用 来 反映 所 提供 的 x 值 和 y 值 之 间 关 系 ， 这 可 能 不 是 完美 的 匹配 ， 所 
以 该 机 器 也 需要 有 一 些 方法 来 量化 误差 范围 ， 我 们 很 快 就 会 深入 讨论 这 个 问题 。 
回归 分 析 通 常用 来 对 数据 元 素 之 间 的 复杂 关系 建立 模型 ， 用 来 估计 一 种 处 理 方法 对 结果 
的 影响 和 推断 未 来 。 一 些 具体 的 应 用 案例 包括 : 
口 根据 种 群 和 个 体 测 得 的 特征 ， 研 究 他 们 之 间 如 何不 同 (差异 性 )， 从 而 用 于 不 同 领域 的 
科学 研究 ， 如 经 济 学 、 社 会 学 、 心 理学 、 物 理学 和 生态 学 . 
口 量化 事件 及 其 相应 的 因果 关系 ， 比 如 可 应 用 于 药物 临床 试验 、 工 程 安全 检测 、 销 售 研 
究 等 。 
口 给 定 已 知 的 准则 ， 确 定 可 用 来 预测 未 来 行为 的 模型 ， 比 如 用 来 预测 保险 赔偿 、 自 然 灾 
害 的 损失 、 选 举 的 结果 和 犯罪 率 等 
回归 方法 也 可 用 于 假设 检验 ， 其 中 包括 数据 是 否 能 够 表明 原 假设 更 可 能 是 真 还 是 假 。 回 
归 模 型 对 关系 强度 和 一 致 性 的 估计 提供 了 信息 用 于 评估 结果 是 否 是 由 于 偶然 性 造成 的 。 


-» 由 于 假设 检验 在 技术 上 并 不 是 一 种 学 习 任务 ， 所 以 我 们 不 会 很 深入 地 介绍 
A 它 。 如 果 你 对 这 个 主题 感 兴趣 ， 你 可 以 从 入 门 的 统计 学 教科 书 开 始 学 习 。 


与 我 们 到 目前 为 止 已 经 介绍 过 的 其 他 机 器 学 习 算 法 不 同 ， 回 归 分 析 并 不 等 同 于 一 个 单一 
的 算法 。 相 反 ， 它 是 大 量 方法 的 一 个 综合 体 ， 几 乎 可 以 应 用 于 所 有 的 机 器 学 习 任务 。 如 果 你 
被 限制 只 能 选择 一 种 单一 的 分 析 方 法 ， 那么 回归 方法 将 是 一 个 不 错 的 选择 。 你 可 以 投身 整个 
事业 生涯 来 来 专门 研究 这 种 方法 ， 而 不 去 管 其 他 方法 ， 即 使 如 此 你 还 有 可 能 学 不 完 。 

在 本 章 中 ,我 们 只 关注 最 基本 的 回归 模型 ， 即 那些 使 用 直线 回归 的 模型 ， 这 叫做 线性 回 
归 (linear regression)。 如 果 只 有 一 个 单一 的 自 变 量 ， 那 就 是 所 谓 的 简单 线性 回归 ( simple linear 
regression)， 和 否则 ， 称 为 多 元 回归 (mnultiple regression)， 这 两 个 模型 都 假设 因 变 量 是 连续 的 。 

对 于 其 他 类 型 的 因 变 量 ， 即 使 是 分 类 任务 ， 使 用 回归 方法 都 是 可 能 的 。 例 如 ， 逻 辑 回 归 
(logistic regression) 可 以 用 来 对 二 元 分 类 的 结果 建 模 ; 而 泊 松 回归 (Poisson regression )， 以 法 
国 数学 家 Siméon Poisson 的 名 字 命 名 ， 可 以 用 来 对 整 型 的 计数 数据 建 模 。 相 同 的 基本 原则 适用 
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于 所 有 的 回归 方法 ， 所 以 一 旦 你 理解 了 线性 情况 下 的 回归 方法 ， 你 就 可 以 研究 其 他 的 回归 方法 。 


线性 回归 、 罗 辑 回归 、 泊 松 回归 以 及 许多 其 他 的 回归 都 属于 一 类 模型 ， 称 

» 为 广义 线性 模型 ( Generalized Linear Model，GLM)， 使 得 回归 能 适用 于 许多 
类 型 的 数据 。 线 性 模型 可 以 通过 使 用 连接 函数 (link function) 进行 泛 化 ， 其 
中 ， 连 接 函 数 指定 Y 和 ?之 间 的 数学 关系 。 


尽管 简单 线性 回归 中 有 “简单 ”两 个 字 ， 但 并 没有 简单 到 不 能 解决 复杂 的 问题 。 在 下 一 节 
中 ,我 们 将 看 到 应 用 简单 线性 回归 模型 如 何 可 能 避免 一 场 本 来 可 以 避免 的 悲剧 性 的 工程 灾难 。 


6.1.1 简单 线性 回归 

1986 年 1 月 28 日 ， 当 负责 密封 火箭 助 推 器 关节 的 O 型 环 失灵 时 ， 导 致 了 一 场 灾难 性 的 
爆炸 ， 美 国 挑战 者 号 航天 飞机 的 7 名 机 组 人 员 丧 生 ， 

那 日 夜晚 之 前 ， 曾 有 过 一 场 关于 低温 预报 可 能 如 何 影响 发 射 安全 的 长 时 间 的 讨论 。 航 
天 飞机 的 部 件 从 来 没有 在 这 样 寒 冷 的 天 气 测试 过 ， 因 此 ， 还 不 清楚 设备 是 否 能 够 经 受 由 于 严 
寒 温 度 产生 的 形变 。 火 箭 工程 师 认 为 ， 寒 冷 的 温度 可 能 会 使 部 件 变 得 更 脆 ， 不 太 能 恰当 地 密 
封 ， 这 将 会 导致 危险 燃料 汽 露 的 可 能 性 较 高 。 然 而 ， 考 虑 到 政治 压力 要 继续 发 射 ， 他 们 需要 
数据 来 支持 他 们 的 假设 。 

本 节 的 分 析 基 于 “Risk analysis of the space shuttle: pre-Challenger prediction 


YY 9 . . . . . 
~ offailure , Journal of the American Statistical Association, Vol. 84, pp. 945- 
957, by S.R. Dalal, E.B. Fowlkes, and B. Hoadley, (1989) 提供 的 数据 。 


科学 家 的 讨论 转向 之 前 23 次 航天 飞机 成 功 发 射 的 数据 ， 这 些 数据 记录 了 0 型 环 相对 于 
发 射 温 度 失灵 的 次 数 。 由 于 航天 飞机 共有 6 个 O 型 环 ， 所 以 每 个 O 型 环 额外 的 失灵 都 会 增 
加 一 场 灾难 性 燃料 泄漏 的 可 能 性 。 下 面 的 散 点 图 显示 了 这 组 数据 。 


O 型 环 失 效 次 数 
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研究 该 图 ， 温度 和 失灵 的 数量 之 间 存 在 着 明显 的 趋势 。 在 较 高 温度 下 发 生 的 发 射 ，O 型 
环 往往 几乎 不 会 失效 。 此 外 ， 最 低温 度 下 (62 华氏 度 ) 的 发 射 有 两 个 环 失效 ， 是 所 有 发 射 中 
失效 个 数 最 多 的 。 因 此 ， 安 排 挑战 者 号 在 比 30 度 还 低 的 温度 下 发 射 似乎 令 人 关注 。 为 了 从 
数量 上 说 明 该 风险 ,我 们 可 以 应 用 简单 线性 回归 。 

简单 线性 回归 定义 了 一 个 因 变 量 和 一 个 单一 的 自 变 量 之 间 的 关系 ， 它 由 如 下 方程 表示 的 
一 条 直线 来 定义 : 


y=atpx 

不 要 被 希腊 字符 吓 坏 ， 这 个 方程 依然 可 以 用 之 前 所 描述 的 斜 截 式 来 理解 。 截 距 a ( alpha) 
描述 直线 穿 过 垂直 轴 的 位 置 ， 而 斜率 8 (beta) 描述 给 定 x 的 一 个 单位 增加 量 后 , y 的 变化 。 
对 于 航天 飞机 的 发 射 数据 ， 和 斜率 将 告诉 我 们 发 射 温度 每 升 高 一 度 ，O 型 环 失效 数目 的 预期 减 
少 值 。 
希腊 字符 通常 用 在 统计 领域 ， 以 表示 一 个 统计 函数 的 参数 变量 。 因 此 ， 进 行 
回归 分 析 时 ， 涉 及 对 a 和 寻找 参数 估计 。a 和 的 参数 估计 值 一 般 用 a 和 4 
来 表示 ， 不 过 你 可 能 发 现 这 方面 的 一 些 数据 和 符号 可 以 互 换 使 用 。 


假设 我 们 知道 ， 对 于 航天 飞机 发 射 数据 中 回归 方程 的 系数 估计 为 : 

Da=4.30 

DQ b=-0.057 

因此 ， 完 整 的 线性 方程 为 : y = 4.30 - 0.057x。 先 忽略 这 些 数字 是 如 何 得 到 的 ， 我 们 可 以 
在 散 点 图 中 夯 出 这 条 直线 : 


2 


O 型 环 失效 次 数 


0 





神 


50 


如 直线 所 示 ， 在 华氏 60 度 ， 我们 预测 O 型 环 的 失效 数 略 低 于 1， 在 华氏 70 度 ， 我 们 预 
计 失 效 数 在 0.3 左右 。 如 果 应 用 我 们 的 模型 在 华氏 31 度 进行 预测 一 一 即 挑战 者 号 发 射 的 预测 
温度 ， 那么 我 们 预计 有 4.30-0.057 x 31=2.53 个 0 型 环 失 效 。 假 设 每 个 O 型 环 失效 导致 一 场 





60 70 80 
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灾难 性 的 燃料 泄漏 是 等 可 能 的 ， 这 意味 着 挑战 者 号 的 发 射 大 约 比 在 正常 的 华氏 60 度 下 发 射 
的 风险 高 出 3 们 多 ， 而 比 在 华氏 70 度 下 发 射 一 次 的 风险 高 8 倍 多 。 

注意 ， 该 直线 并 不 能 准确 地 预测 数据 。 相 反 ， 它 略微 均衡 地 穿 过 了 数据 ， 有 些 预 测 值 比 
预期 的 要 低 ， 有 些 比 预期 的 要 高 。 下 一 节 将 学 习 为 什么 会 选择 这 条 特定 的 直线 。 


6.1.2 ”普通 最 小 二 乘 估计 

为 了 确定 & 和 有 的 最 优 估计 值 ， 可 使 用 一 种 称 为 普通 最 小 二 乘 (Ordinary Least Squares， 
OLS) 的 估计 方法 。 在 OLS 回归 中 ， 和 斜率 和 截 距 的 选择 要 使 得 误差 ( 即 ” 的 预测 值 与 y 的 真 
实 值 之 间 的 垂直 距离 ) 的 平方 和 最 小 。 这 些 误 差 称 为 残 差 (residual)， 可 通过 前 一 个 图 中 的 几 
个 点 来 说 明 : 


O 型 环 失效 次 数 





用 数学 中 的 术语 ，OLS 回归 的 目标 可 以 表述 为 求 下 述 方程 最 小 值 的 任务 : 


(yD) =Ze 
用 通俗 易 懂 的 语言 来 说 ， 这 个 方程 定义 了 e (误差 ) 为 真实 值 y 和 预测 的 y 值 之 间 的 差 
值 ， 需要 将 数据 中 的 所 有 点 的 误差 值 平方 并 求 和 。 


小、 上 项 上 的 插入 符号 (^) 是 统计 表示 法 中 一 个 常用 的 符号 ， 它 表示 这 一 项 是 对 
改 真实 值 y 的 一 个 估计 ， 称 为 y-hat。 
虽然 证 明 超出 了 本 书 的 范围 ， 但 是 可 以 通过 演算 来 证 明 使 得 平方 误差 最 小 的 5b 值 为 : 


，_ 2 - 芭 (~ 柬 
(x -7x) 
而 a 的 最 优 值 为 : 


a=y—bx 
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-» 要 理解 这 些 方程 ， 还 需要 知道 另 一 个 统计 符号 。 出 现在 x 项 和 y 项 上方 的 水 
QQ 平 线 表 示 xX 和 yy 的 均值 ， 称 为 x-bar 和 y-bar。 


为 了 理解 这 些 方程 ,我 们 可 以 将 它们 分 解 来 看 。2 值 的 分 母 应 该 看 起 来 很 熟悉 ， 它 类 似 
于 x 的 方差 ， 而 方差 可 以 表示 为 Var(x)。 正 如 我 们 在 第 2 章 中 所 学 到 的 ， 计 算 方 差 涉 及 求 x 
与 其 均值 的 平均 平方 偏差 。 

我 们 之 前 还 没有 计算 分 子 ， 分 子 涉 及 求 每 个 数据 点 中 zx 与 其 均值 的 偏差 乘 以 了 与 其 均值 
的 偏差 的 乘积 之 和 ， 这 称 为 x 和 ?的 协 方差 ( covariance)， 表 示 为 Cov(x, y)。 考 虑 到 这 一 点 ， 
可 以 将 b 值 的 公式 重新 写成 : 


二 Cov(x,y) 
“3 


如 果 你 想 一 起 学 习 这 些 例子 ， 那 么 你 需要 从 Packt 网 站 下 载 challenger .csV 
文件 ， 并 使 用 命令 launch <- read.csv("challenger.csv") 将 该 
文件 加 载 并 存 为 一 个 数据 框 。 


给 定 此 公式 ， 使 用 R 中 的 函数 很 容易 计算 的 值 。 假 设 航天 飞机 发 射 的 数据 存储 在 一 个 
名 为 launch 的 数据 框 中 ， 自 变量 x 为 temperature， 因 变量 为 aistress_ct。 然 
后 ,我 们 便 可 以 使 用 R 中 的 内 置 函 数 cov () 和 vaz () 来 估计 。: 


> b <- cov(launch$temperature, launch$distress ct) / 
var (launch$temperature) 


的 


> 六 
[1] -0.05746032 


从 这 开始 ,我 们 可 以 使 用 meun () 也 数 估计 a: 


> a <- mean(launch$distress ct) - b * meanllaunch$temperature) 
>a 
[1] 4.301587 


以 这 种 方式 估计 回归 方程 是 不 理想 的 ， 所 以 R 中 理所当然 地 提供 了 可 以 自动 估计 回归 方 
程 的 函数 ,我 们 很 快 就 会 研究 这 些 函 数 。 首 先 ， 我 们 将 通过 学 习 一 种 用 来 衡量 线性 关系 强度 
的 方法 来 拓展 我 们 对 回归 的 理解 ; 然后， 我 们 将 看 一 看 线性 回归 如 何 应 用 于 有 多 个 自 变 量 的 
数据 的 中 。 


6.1.3 ”相关 系数 


两 个 变量 之 间 的 相关 系数 ( correlation) 是 一 个 数 ， 它 表示 两 个 变量 服从 一 条 直线 的 关系 
有 多 么 紧密 。 如 果 没 有 其 他 的 限制 ， 相 关系 数 就 是 指 Pearson 相关 系数 ， 它 是 由 20 世纪 数学 
家 Karl Pearson 提出 来 的 ， 相 关系 数 的 范围 是 在 -1 ~ +1 之 间 ， 两 端的 值 表示 一 个 完美 的 线 
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性 关系 ， 而 相关 系数 接近 于 零 则 表示 不 存在 线性 关系 。 
下 面 的 公式 定义 了 Pearson 相关 系数 : 
p. ,= Corr (x,y)= Cov(%y) 
: aa， 
这 里 介绍 一 些 希 腊 字 符 : 第 一 个 字符 p (看 起 来 像 小 写字 母 “p”) 是 rho， 用 
来 表示 Pearson 相关 系数 ; 第 二 个 是 分 母 上 的 字符 o, 它 看 起 来 像 是 向 一 侧 转 
过 的 “q”， 记 为 sigma，cx、w 分 别 表示 x、y 的 标准 差 。 


使 用 这 个 公式 ， 我 们 可 以 计算 发 射 温 度 和 O 型 环 失效 数 之 间 的 相关 系数 。 回 想 一 下 ， 协 
方差 函数 为 cov () ， 标 准 差 函数 为 sd () 。 我 们 将 结果 存储 在 上 中 , 通常 用 来 表示 估计 的 
相关 系数 : 


> <- cov(llaunch$temperature, launch$distress ct) / 
(sd(launch$temperature) * sd(launch$distress ct)) 

5: ¥ 

[1] -0.725671 


或 者 ,我 们 可 以 使 用 内 置 的 相关 系数 函数 cor (): 


> cor(launch$temperature, launch$distress ct) 
[1] -0.725671 


由 于 相关 系数 大 约 为 -0.73， 所 以 这 意味 着 在 温度 和 O 型 环 失效 数 之 间 存 在 着 相当 强 的 
负 线 性 相关 性 ， 而 负 相关 意味 着 温度 的 升 高 关联 到 O 型 环 失效 数 会 减少 。 对 于 美国 国家 航空 
航天 局 (NASA) 的 工程 师 研究 的 O 型 环 数据 ， 这 原本 是 一 个 非常 清晰 的 指示 ， 即 低温 发 射 
可 能 会 出 问题 。 

有 各 种 经 验 规则 (大 拇指 规则 ) 用 来 解释 相关 系数 。 一 种 方法 就 是 指定 相关 系数 的 值 在 
0.1 ~ 0.3 为 弱 相 关 ， 在 0.3 ~ 0.5 为 中 相关 ， 超 过 0.5 为 强 相 关 (这 些 同样 适用 于 负 相关 的 类 
似 范 围 )。 然 而 ， 为 了 某 些 目标 ， 这 些 阔 值 可 能 过 于 宽松 。 通 常 ， 相 关 性 必须 根据 上 下 文 解 
释 。 对 于 涉及 人 类 的 数据 ，0.5 的 相关 性 可 能 认为 是 非常 强 的 ; 对 于 机 械 过 程 产生 的 数据 ，0.5 
的 相关 性 可 能 认为 是 弱 的 。 


你 可 能 已 经 听 过 这 种 表述 :“ 相 关 性 并 不 意味 着 因果 性 。” 这 植 根 于 这 样 的 事 
实 ， 即 相关 性 只 描述 一 对 变量 之 间 的 关联 ， 但 可 能 还 有 其 他 的 解释 。 例 如 ， 
预期 寿命 和 每 天 看 电影 的 时 间 之 间 可 能 存在 着 一 种 很 强 的 关联 性 ， 但 是 在 医 
生 开始 建议 所 有 人 多 看 电影 之 前 ， 我 们 需要 排除 另 一 种 解释 : 老年 人 看 的 电 
影 越 少 ， 越 有 可 能 去 世 。 


度量 两 个 变量 之 间 的 相关 性 给 我 们 提供 了 一 种 快速 了 解 因 变 量 和 自 变 量 之 间 关系 的 方 
法 ， 当 我 们 开始 用 大 量 的 预测 变量 来 定义 回归 模型 时 ， 这 将 变 得 越 来 越 重要 。 


AL 


DN 
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6.1.4 ”多 元 线性 回归 

大 多 数 现实 世界 的 分 析 不 止 一 个 自 变 量 。 因 此 ， 在 使 用 回归 来 进行 数值 预测 任务 时 ， 大 
多 数 情况 下 ， 很 有 可 能 使 用 多 元 线性 回归 ( multiple linear regression ) 。 多 元 线性 回归 的 优点 
和 和 缺点 如 下 表 所 示 。 









对 数据 做 出 了 很 强 的 假设 
该 模型 的 形式 必须 由 使 用 者 事先 指定 

不 能 很 好 地 处 理 缺 失 数据 

只 能 处 理 数值 特征 ， 所 以 分 类 数据 需要 额外 的 处 理 
需要 一 些 统计 知识 来 理解 模型 

我 们 可 以 将 多 元 回归 作为 简单 线性 回归 的 扩展 来 理解 。 在 这 两 种 回归 中 ， 目 标 是 相似 
的 : 求 出 系数 8 的 值 和 最 大 限度 减 小 线性 方程 的 预测 误差 。 主 要 区 别 是 增加 的 自 变量 需要 有 客 
外 的 条 件 。 

多 元 回归 方程 一 般 遵 循 下 述 方程 的 形式 。 因 变量 了 是 截 距 项 加 上 每 一 个 特征 i 的 6 估计 
值 与 x 值 的 乘积 。 这 里 已 加 入 误差 项 (用 希腊 字母 6 表示 ) 作为 一 种 提示 ， 即 这 些 预测 并 不 
完美 ， 这 就 是 前 面 所 提 到 的 残 差 项 

y=a+Bxr+pPx, +...+Bx+e 

让 我 们 考虑 一 下 估计 的 回归 参数 的 解释 。 你 会 注意 到 ， 在 前 面 的 方程 中 ， 需 要 对 每 一 个 
特征 估计 一 个 系数 ， 这 使 得 每 个 特征 对 y 的 值 都 有 一 个 单独 的 估计 影响 。 也 就 是 说 ， 每 增加 
一 个 单位 的 x;，y 的 变化 量 为 6;， 那 么 截 距 项 就 是 当 所 有 自 变量 为 零 时 的 y 的 估计 值 。 

由 于 截 距 项 与 任何 其 他 的 回归 参数 相 比 确实 没有 什么 不 同 ， 所 以 它 也 可 以 表示 为 po。( 读 
作 beta-naught)， 如 下 面 的 方程 所 示 : 


y=PB+Bmt+pBx, t+...+Bx te 
使 用 简明 的 公式 ， 该 方程 可 以 重新 表示 为 : 
Y=Xp+e 
即使 该 公式 看 起 来 很 熟悉 ， 但 还 是 有 一 些 
细微 的 变化 。 因 变量 现在 是 一 个 向 量 Y,， 一行 
表示 一 个 案例 ; 自 变 量 被 合并 成 一 个 矩阵 XX， 
一 列表 示 一 个 特征 ， 再 加 上 额外 的 一 列 用 来 表 
示 截 距 项 的 值 全 为 “1” 的 列 。 同 样 ， 回 归 系 数 
和 误差 现在 都 是 向 量 。 
下 图 说 明了 这 些 变 化 : 
现在 的 目标 就 是 要 求 出 使 得 y 的 预测 值 与 
真实 值 之 间 的 误差 平方 和 最 小 的 向 量 5。 由 于 
寻找 最 优 解 需要 使 用 矩阵 代数 ， 所 以 推导 过 程 


e 迄今 为 止 ， 它 是 数值 型 数据 建 模 最 常用 的 方法 
e 可 适用 于 几乎 所 有 的 数据 

提供 了 特征 (变量) 与 结果 之 间 关 系 的 强度 与 
大 小 的 估计 
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比 本 书 中 所 提供 的 更 需要 仔细 关注 。 然 而 ， 如 果 你 愿意 相信 他 人 的 工作 ， 那么 向 量 8 的 最 佳 
估计 可 以 这 样 计算 : 
B=(X™X) x'Y 
该 估计 值 运 用 了 两 种 矩阵 运算 : T 表示 和 矩阵 站 的 转 置 ， 而 负 指 数 表 示 和 矩阵 的 逆 。 使 用 R 

中 内 置 的 矩阵 运算 ， 我们 可 以 实现 一 个 简单 的 多 元 回归 学 习 ， 让 我 们 看 一 看 是 否 可 以 将 该 公 
式 应 用 于 挑战 者 号 的 发 射 数据 ，。 

如 果 你 不 熟悉 前 面 的 给 阵 运 算 ， 维 基 百 科 的 转 置 (transpose) 和 和 矩阵 的 逆 

(matrix inverse) 页 面 提供 了 全 面 的 介绍 。 而且， 即使 没有 很 强 的 数学 背景 ， 也 

是 完全 可 以 理解 的 。 


AL 


使 用 下 面 的 代码 ， 我 们 可 以 创建 一 个 名 为 reg 的 简单 回归 函数 ， 该 函数 的 输入 参数 为 y 
和 x， 并 返回 一 个 估计 的 8 系数 矩阵 。 


> reg <- function(y, x) { 
x <- as.matrix (x) 
x <- cbind(Intercept = 1, Xx) 
solve(t (x) %*% X) %*% t(x) Sx*$s% 了 


} 

该 函数 使 用 了 几 个 我 们 之 前 没有 使 用 过 的 R 命令 。 首 先 ， 因 为 函数 要 使 用 来 自 数据 框 的 
列 数 据 ， 所 以 需要 用 函数 as .matrix() 将 数据 强制 变 成 矩阵 形式 。 其 次 ， 隐 数 cbina () 
用 来 将 额外 的 一 列 添加 到 和 矩阵 x 中 ,命令 Intercept = 1 指示 R 将 新 的 一 列 命名 为 
Intercept， 并 将 这 一 列 全 部 用 数值 1 填充 。 最 后 ， 关 于 对 象 x 和 y 进行 一 些 和 矩阵 运算 : 

口 函数 solve () 执行 矩阵 的 逆 运 算 。 

口 函数 t () 用 来 将 矩阵 转 置 。 

口 sxs 将 两 个 矩阵 相 乘 。 

如 公式 所 示 ， 结 合 这 些 命令 来 求 的 估计 向 量 ， 函 数 将 返回 y 关于 x 的 线性 模型 的 估计 
参数 。 

让 我 们 将 函数 reg () 应 用 于 航天 飞机 的 发 射 数据 。 如 下 面 的 代码 所 示 ， 数 据 包含 了 4 
个 特征 和 一 个 令 人 感 兴趣 的 结果 distress_ct (0 型 环 的 失效 数 ): 


> str(launch) 

'data.frame': 23 obs. of 5 variables: 

$oringct » in 66666666€66 .., 

$ distress ct: int 0100000011... 

$ temperature: int 66 70 69 68 67 72 73 70 57 63 ... 

$ pressure : 4nt 50 .50 50 50 3 50 100 100 200 200 ;i. 
8 laumneh id : Joe 123456789 10 ... 


通过 将 reg () 函数 运行 的 O 型 环 失效 数量 结果 与 仅 应 用 温度 的 简单 线性 模型 的 结果 相 
比较 ， 我 们 发现 之 前 的 参数 a=4.30、b=-0.057， 于 是 我 们 可 以 证 实 函数 reg () 能 正确 
运行 。 由 于 温度 位 于 发 射 数据 的 第 三 列 ， 所 以 可 以 如 下 运行 reg () 函数 : 
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> regly = launch$distress ct, x = launch[3]) 
[,1] 

Intercept 4.30158730 

temperature -0.05746032 


这 些 值 与 之 前 的 结果 完全 一 样 ， 因 此 可 以 使 用 该 函数 建立 多 元 回归 模型 。 像 之 前 一 样 应 
用 该 函数 ,但 是 这 一 次 ,我 们 将 指定 3 列 数据 而 不 再 只 是 1 列 数 据 : 


> regly = launch$distress ct, x = launch[3:5]) 
[,1] 


Intercept 3.814247216 
temperature -0.055068768 
pressure 0.003428843 
launch_ id -0.016734090 


该 模型 预测 O 型 环 失效 数 与 温度 、 压 力 和 发 射 ID 号 之 间 的 数值 关系 。 温 度 和 发 射 ID 号 
变量 的 负 系 数 表明 ， 随 着 温度 和 发 射 ID 号 的 增加 ，O 型 环 失效 数 会 减少 。 将 同样 的 解释 应 
用 于 压力 变量 的 系数 ,我 们 知道 随 着 压力 的 增加 ， 预 计 O 型 环 失效 数 也 将 增加 。 


尽管 你 不 是 一 个 科学 家 ， 但 这 些 研 究 结 果 似 乎 是 合理 的 。 寒 冷 的 气温 会 使 得 

<、 0 型 环 更 脆 ， 更 大 的 压力 可 能 会 增加 零件 上 的 压力 ， 但 是 为 什么 发 射 ID 号 与 
较 少 的 O 型 环 失效 数 有 关 呢 ?7 一 种 解释 是 ， 也 许 以 后 发 射 使 用 的 O 型 环 是 由 
强度 更 大 、 更 富有 弹性 的 材料 构成 的 


到 目前 为 止 ， 我 们 只 涉及 了 线性 回归 模型 的 表面 。 尽 管 我 们 的 工作 确实 能 够 帮助 我 们 理 
解 回 归 模型 是 如 何 建立 的 ， 但 是 R 中 用 来 拟 合 线性 回归 模型 的 函数 不 仅 比 我 们 的 运算 更 快 ， 
而 且 信 息 量 更 丰富 。 现 实 世 界 的 回归 包 提 供 了 大 量 的 输出 以 帮助 解释 模型 。 让 我 们 将 我 们 的 
回归 知识 应 用 到 一 个 更 具有 挑战 性 的 学 习 任务 中 吧 ! 


6.2 ”例子 一 一 应 用 线性 回归 预测 医疗 费用 


公司 为 了 赚钱 ， 保 险 需要 募集 比 花费 在 受益 者 的 医疗 服务 上 更 多 的 年 度 保费 ， 因 此 ， 保 
险 公司 投入 了 大 量 的 时 间 和 人 金钱 来 研发 能 精确 预测 医疗 费用 的 模型 。 

医疗 费用 很 难 估计 ， 因 为 花费 最 高 的 情况 是 罕见 的 而 且 似乎 是 随机 的 。 但 是 有 些 情况 对 
于 部 分 特定 的 群体 还 是 比较 普遍 存在 的 。 例 如 ， 吸 烟 者 比 不 吸烟 者 得 肺癌 的 可 能 性 更 大 ， 肥 
胖 的 人 更 有 可 能 得 心脏 病 。 

eA eh er dra ead 了 费用 。 这 些 估计 可 以 用 来 

一 个 精算 表 ， 根 据 预期 的 治疗 费用 来 设 定年 度 保费 价格 是 高 一 点 还 是 低 一 点 。 





6.2.1 


为 了 便于 分 析 ， 我 们 使 用 一 个 模拟 数据 集 ， 该 数据 集 包 含 了 美国 病人 的 医疗 费用 。 而 本 
书 创建 的 这 些 数据 使 用 了 来 自 美 国人 口 普查 局 ( U.S. Census Bureau) 的 人 口 统计 资料 ， 因 此 
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可 以 大 致 反映 现实 世界 的 情况 。 


治 》。 如 果 你 想 一 起 学 习 这 个 例子 ， 那 么 你 需要 从 Packt 出 版 社 的 网 站 下 载 
QQ insurance.csv 文件 ， 并 将 该 文件 保存 到 R 的 工作 文件 夹 中 。 


该 文件 (insurance .csv) 包含 1338 个 案例 ， 即 目前 已 经 登记 过 的 保险 计划 受益 者 以 
及 表示 病人 特点 和 历年 计划 计 入 的 总 的 医疗 费用 的 特征 。 这 些 特 征 是 : 
口 age: 这 是 一 个 整数 ， 表 示 主 要 受益 者 的 年 龄 (不 包括 超过 64 岁 的 人 ， 因 为 他 们 一 般 
由 政府 支付 )。 

口 sex: 这 是 保单 持 有 人 的 性 别 ， 要 么 是 male， 要 么 是 female。 

口 pmi : 这 是 身体 质量 指数 ( Body Mass Index，BMI)， 它 提供 了 一 个 判断 人 的 体重 相 
对 于 身高 是 过 重 还 是 偏 轻 的 方法 ，BMI 指数 等 于 体重 (公斤 ) 除 以 身高 ( 米 ) 的 平方 。 
一 个 理想 的 BMI 指数 在 18.5 ~ 24.9 的 范围 内 。 

口 children: 这 是 一 个 整数 ， 表 示 保 险 计 划 中 所 包括 的 孩子 / 受 抚养 者 的 数量 。 

口 smoker: 根据 被 保险 人 是 否 吸烟 判断 yes 或 者 no。 

口 region: 根据 受益 人 在 美国 的 居住 地 ， 分 为 4 个 地 理 区 域 : northeast、southeast、 

southwest 和 morthwest。 

如 何 将 这 些 变量 与 已 结算 的 医疗 费用 联系 在 一 起 是 非常 重要 的 。 例 如 ， 我 们 可 能 认为 老 
年 人 和 吸烟 者 在 大 额 医 疗 费用 上 有 较 高 的 风险 。 与 许多 其 他 的 机 器 学 习 方 法 不 同 ， 在 回归 分 
析 中 ， 特 征 之 间 的 关系 通常 由 使 用 者 指定 而 不 是 自动 检测 出 来 。 在 下 一 节 中 ,我 们 将 探讨 其 
中 的 一 些 潜在 关系 。 


6.2.2 第 2 步 一 一 探索 和 准备 数据 

正如 我 们 以 前 所 做 的 那样 ， 我 们 将 使 用 *ead.csv() 函数 来 加 载 用 于 分 析 的 数据 。 我 
们 可 以 安全 地 使 用 stringsAsFactors = TRUE， 因 为 将 名 义 变量 转换 成 因子 变量 是 恰 
当 的 : 

> insurance <- read.csvl("insurance.csv'", stringsAsFactors = TRUE) 

函数 stz () 确认 该 数据 转换 了 我 们 之 前 所 期 望 的 形式 : 


> str(insurance) 
'data.frame': 1338 obs. of 7 variables: 


$ age :nt 19 18 28 3 BZ AL 46 BT IF GO vs 

$ sex : Factor w/ 2 levels "female','"male": 1 22221. 
$ bmi “ DUN 27.9 33.8 33 22.7 238.9 vs 

S children: nt 05350001535 过 5 ,:.。 

$ smoker : Factor w/ 2 levels "no'","yes": 211111... 

$ region : Factor w/ 4 levels "northeast", "northwest", ... 


$ charges : num 16885 1726 4449 21984 3867 ... 


既然 因 变 量 是 charges， 那么 让 我 们 一 起 来 看 一 看 它 是 如 何 分 布 的 : 
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> summary (insurance$charges) 
Min, lst Qu. Median Mean 3rd Qu. Max. 
1122 4740 9382 13270 16640 63770 


因为 平均 值 远大 于 中 位 数 ， 所 以 这 表明 保险 费用 的 分 布 是 右 偏 的 。 我 们 可 以 使 用 直观 的 
直方 图 来 证 实 这 一 点 。 
> hist (insurances$charges) 


Histogram of insurance$charges 


350 


Frequency 





I | Tm 
0 10000 20000 30000 40000 50000 60000 


insurance$charges 

在 我 们 的 数据 中 ， 绝 大 多 数 的 个 人 每 年 的 医疗 费用 都 在 0 ~ 15 000 美元 ， 尽 管 分 布 的 尾 
部 经 过 直方 图 的 峰 部 后 延伸 得 很 远 。 因 为 线性 回归 假设 因 变 量 的 分 布 为 正 态 分 布 ， 所 以 这 种 
分 布 是 不 理想 的 。 在 实际 应 用 中 ,线性 回归 的 假设 往往 会 被 违背 。 如 果 需 要 ,我们 在 后 面 能 
够 修正 该 假设 。 

即将 面临 的 男 一 个 问题 就 是 回归 模型 需要 每 一 个 特征 都 是 数值 型 的 ， 而 在 我 们 的 数据 框 
中 ,我 们 有 3 个 因子 类 型 的 特征 。 很 快 ， 我 们 就 会 看 到 R 中 的 线性 回归 函数 如 何 处 理 我 们 的 
变量 。 

变量 sex 被 划分 成 male 和 female 两 个 水 平 ， 而 变量 smoker 被 划分 成 yes 和 no 
两 个 水 平 。 从 summary () 的 输出 中 ， 我 们 知道 变量 region 有 4 个 水 平 ， 但 我 们 需要 仔细 
看 一 看 ， 它 们 是 如 何 分 布 的 。 


> table (insurance$region) 
northeast northwest southeast southwest 
324 325 364 325 


这 里 ,我 们 看 到 数据 几乎 均匀 地 分 布 在 4 个 地 理 区 域 中 。 


1. 探索 特征 之 间 的 关系 一 一 相关 系数 矩阵 


在 使 用 回归 模型 拟 合 数据 之 前 ， 有 必要 确定 自 变量 与 因 变 量 之 间 以 及 自 变量 之 间 是 如 何 
相关 的 。 相 关系 数 和 矩阵 ( correlation matrix) 提供 了 这 些 关系 的 快速 概览 。 给 定 一 组 变量 , 它 
可 以 为 每 一 对 变量 之 间 的 关系 提供 一 个 相关 系数 。 
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为 insurance 数据 框 中 的 4 个 数值 型 变量 创建 一 个 相关 系数 矩阵， 可 以 使 用 cor () 命令 : 


> cor(linsurance[c("age", "bmi", "children'", "charges")]) 
age bmi children charges 

age 1.0000000 0.1092719 0.04246900 0.29900819 

bmi 0.1092719 1.0000000 0.01275890 0.19834097 

children 0.0424690 0.0127589 1.00000000 0.06799823 

charges 0.2990082 0.1983410 0.06799823 1.00000000 


在 每 个 行 与 列 的 交叉 点 ， 列 出 的 相关 系数 表示 其 所 在 的 行 与 其 所 在 的 列 的 两 个 变量 之 间 
的 相关 系数 。 对 角 线 始终 为 1， 因 为 一 个 变量 和 其 自身 之 间 总 是 完全 相关 的 。 因 为 相关 性 是 
对 称 的 ， 换 句 话 说 就 是 ，cor (x, y) =cor (y，x)， 所 以 对 角 线 上 方 的 值 与 其 下 方 的 值 是 
相同 的 。 

该 矩阵 中 的 相关 系数 不 是 强 相 关 的 ， 但 还 是 存在 一 些 显著 的 关联 。 例 如 ，age 和 bmi 
显示 出 中 度 相 关 ， 这 意味 着 随 着 年 龄 (age) 的 增长 ， 身 体质 量 指数 (bmi ) 也 会 增加 。 此 外 ， 
age 和 charges，bmi 和 charges， 以 及 childaren 和 charges 也 都 呈现 出 中 度 相 关 。 
当 我 们 建立 最 终 的 回归 模型 时 ， 我 们 会 尽量 更 加 清晰 地 梳理 出 这 些 关系 。 


2. 可 视 化 特征 之 间 的 关系 一 一 散 点 图 矩阵 


或 许 通过 使 用 散 点 图 ， 可 视 化 特征 之 间 的 关系 会 更 有 帮助 。 虽 然 我 们 可 以 为 每 个 可 能 的 
关系 创建 一 个 散 点 图 ， 但 对 于 大 量 的 特征 ， 这 样 做 可 能 会 变 得 比较 烦琐 。 

另 一 种 方法 就 是 创建 一 个 散 点 图 矩阵 ( scatterplot matrix) (有 时 简称 为 SPLOM )， 就 是 简 
单 地 将 一 个 散 点 图 集合 排列 在 网 格 中 ， 它 可 以 用 来 检测 3 个 或 者 更 多 变量 之 间 的 模式 ， 但 散 
点 图 和 抢 阵 并 不 是 真正 的 多 维 可 视 化 ， 因 为 一 次 只 能 研究 两 个 特征 。 尽 管 如 此 ， 它 还 是 提供 了 
一 种 通用 的 研究 数据 是 如 何 内 在 相关 的 方法 。 

我 们 可 以 使 用 R 中 的 图 形 功 能 来 为 4 个 数值 型 的 特征 (age、bmi、children 和 
charges) 创建 一 个 散 点 图 矩阵 。 默 认 的 R 安装 中 就 提供 了 函数 pairs () ,该 函数 为 产生 
散 点 图 矩 阵 提供 了 基本 的 功能 。 为 了 调用 该 函数 ， 只 需要 给 它 提 供 数 据 框 ， 结 果 就 呈现 出 散 
点 图 和 矩阵。 这 里 ， 我 们 将 把 insurance 数据 框 限制 为 感 兴趣 的 4 个 数值 型 变量 : 


> Pairs (insurance [c("age'"'，"bmi"，"children"，"charges")]) 


这 样 就 产生 了 下 面 的 图 : 

与 相关 系数 矩阵 一 样 ， 每 个 行 与 列 的 交叉 点 所 在 的 散 点 图 表示 其 所 在 的 行 与 列 的 两 个 变 
量 的 相关 关系 。 由 于 对 角 线 上 方 和 下 方 的 x 轴 和 >》 轴 是 交换 的 ， 所 以 对 角 线 上 方 的 图 和 下 方 
的 图 是 互 为 转 置 的 。 

你 注意 到 这 些 散 点 图 中 的 一 些 图 案 了 吗 ? 尽管 有 一 些 看 上 去 像 是 随机 密布 的 点 ， 但 还 是 
有 一 些 似乎 呈现 了 某 种 趋势 。age 和 charges 之 间 的 关系 呈现 出 几 条 相对 的 直线 ， 而 bmi 
和 charges 的 散 点 构成 了 两 个 不 同 的 群体 。 在 其 他 任何 散 点 图 中 都 很 难 检测 出 趋势 。 

如 果 我 们 对 散 点 图 添加 更 多 的 信息 ， 那 么 它 就 会 更 加 有 用 。 一 个 改进 后 的 散 点 图 矩 
阵 可 以 用 psych 包 中 的 pairs.panels() 函数 来 创建 。 如 果 你 还 没有 安装 这 个 包 , 那 
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么 可 以 输入 install.packages ("psych") 命令 将 其 安装 到 你 的 系统 中 ， 并 使 用 
1ibrary (psych) 命令 加 载 它 。 然 后 ,就 可 以 像 之 前 所 做 的 那样 创建 一 个 散 点 图 矩阵 : 


> pairs.panels (insurance[c("age", "bmi", "children", "charges")]) 
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在 对 角 线 的 上 方 ， 散 点 图 被 相关 系 系数 矩阵 所 取代 。 在 对 角 线 上 ， 直 方 图 描绘 了 每 个 特 
征 的 数值 分 布 。 最 后 ， 对 角 线 下 方 的 散 点 图 带 有 额外 的 可 视 化 信息 。 
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每 个 散 点 图 中 呈 椭 圆 形 的 对 象 称 为 相关 椭圆 (correlation ellipse)， 它 提供 了 一 种 变量 之 
间 是 如 何 密切 相关 的 可 视 化 信息 。 位 于 椭圆 中 心 的 点 表示 x 轴 变 量 的 均值 和 y 轴 变 量 的 均值 
所 确定 的 点 。 两 个 变量 之 间 的 相关 性 由 椭圆 的 形状 所 表示 ， 椭 圆 越 被 拉 伸 ， 其 相关 性 越 强 。 
一 个 几乎 类 似 于 圆 的 完美 的 椭圆 形 ， 如 bmi 和 children， 表 示 一 种 非常 弱 的 相关 性 (在 这 
种 情况 下 相关 系数 为 0.01 )。 

散 点 图 中 绘制 的 曲线 称 为 局 部 回归 平滑 (loess smooth)， 它 表示 x 轴 和 yy 轴 变 量 之 间 的 一 
股 关系 。 最 好 通过 例子 来 理解 。 散 点 图 中 age 和 children 的 曲线 是 一 个 倒置 的 U， 峰 值 
在 中 年 附近 ， 这 意味 着 案例 中 年 龄 最 大 的 人 和 年 龄 最 小 的 人 比 年 龄 大 约 在 中 年 附近 的 人 拥有 
的 孩子 要 少 。 因 为 这 种 趋势 是 非 线性 的 ， 所 以 这 一 发 现 已 经 不 能 单独 从 相关 性 推断 出 来 。 另 
一 方面 ， 对 于 age 和 bmi， 局 部 回归 光滑 是 一 条 倾斜 的 逐渐 上 升 的 线 ， 这 表明 BMI 会 随 着 
年 岭 (age) 的 增长 而 增加 ， 但 我 们 已 经 从 相关 系数 和 矩阵 中 推断 出 该 结论 。 


6.2.3 ”第 3 步 一 一 基于 数据 训练 模型 

用 R 对 数据 拟 合 一 个 线性 回归 模型 ， 可 以 使 用 lm() 函数 。 该 函数 包含 在 stats 添加 包 
中 ， 当 你 安装 R 软件 时 ， 该 包 就 应 该 默认 安装 并 在 R 启动 时 自动 加 载 好 了 。 函 数 Im() 的 语 
法 如 下 所 示 : 

下 面 命令 拟 合 称 为 ins_model 的 线性 回归 模型 ， 该 模型 将 6 个 自 变量 与 总 的 医疗 费用 
联系 在 一 起 。R 中 的 公式 语法 使 用 波浪 号 ~ 来 描述 模型 ， 因 变量 位 于 波浪 号 的 左 侧 ， 自 变量 
位 于 波浪 号 的 右 侧 ， 自 变量 通过 符号 + 隔 开 。 这 里 没有 必要 指定 回归 模型 的 截 距 项 ， 因 为 在 
默认 的 情况 下 ， 它 是 假定 存在 的 : 


> ins model <- lml(charges ~ age + children + bmi + sex + 
smoker + region, data = insurance) 


多 元 回归 模型 语法 
应 用 stats 添加 包 中 的 函数 Im() 


建立 模型 ; 

m <- lm(dv ~ iv， data = mydata ) 

。 dv: 是 mydata 数据 框 中 需要 建 模 的 因 变 量 

e iv: 为 一 个 R 公式， 用 来 指定 mydata 数据 框 中 被 用 于 模型 的 自 变量 

。 data: 为 包含 变量 Gv 和 变量 iv 的 数据 框 

该 函数 返回 一 个 回归 模型 对 象 ， 该 对 象 能 够 用 于 预测 。 自 变量 之 间 的 交互 作用 可 以 通过 运算 符 “*” 来 给 出 


进行 预测 : 

p <- predict (m, test) 

e nm: 由 函数 Im() 训练 的 一 个 模型 

e test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 建立 模型 的 训练 数据 有 同样 的 特征 

该 函数 将 返回 一 个 含有 预测 值 的 向 量 。 

例子 : 
ins model <- lm(charges ~ age + children + sex + smoke, rdata = insurance) 
ins_ pred <- predict (ins model, insurance test) 
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由 于 符号 . 可 以 用 来 指定 所 有 的 特征 (不 包括 那些 公式 中 已 经 指定 的 )， 所 以 下 面 的 命令 
等 价 于 前 面 的 命令 : 

> ins model <- lm(charges ~ ., data = insurance) 

建立 模型 后 ， 只 需 输 入 该 模型 对 象 的 名 称 ， 就 可 以 看 到 估计 的 1 系数 : 


> ins model3 


Call: 
lim(formula = charges ~ age + children + bmi + sex + 
smoker + region, data = insurance) 


Coefficients: 


(Intercept) age children 
=11938.5 256.9 a75.5 

bmi sexmale smokeryes 

339.2 = 二 3 于 过 23848.5 


regionnorthwest regionsoutheast regionsouthwest 
=353.0 -T9350 -960.1 


理解 回归 系数 是 相当 简单 的 。 截 距 告 诉 我 们 当 自 变量 的 值 都 等 于 0 时 charges 的 值 。 
与 这 里 的 案例 一 样 ， 截 距 往 往 是 很 难 解释 的 ， 因 为 使 所 有 特征 的 取 值 都 为 0 
是 不 可 能 的 。 例如， 因为 没有 人 的 年 龄 (age) 和 BMI 是 取 值 为 0 的 ， 所 以 
截 距 没有 内 在 的 意义 。 出 于 这 个 原因 ， 截 距 在 实际 中 常常 被 忽略 。 


AL 


在 其 他 特征 保持 不 变 时 ， 一 个 特征 的 8 系数 表示 该 特征 每 增加 一 个 单位 ，charges ( 费 
用 ) 的 增加 量 。 例如 ， 随 着 每 一 年 年 龄 的 增加 ， 假 设 其 他 一 切 都 一 样 (不 变 )， 我 们 将 会 预计 
平均 增加 $256.90 的 医疗 费用 。 同 样 ， 每 增加 一 个 孩子 ， 每 年 将 会 产生 平均 $475.50 的 额外 
医疗 费用 ; 而 每 增加 一 个 单位 的 BMI， 每 年 的 医疗 费用 将 会 增加 $339.20。 

你 可 能 注意 到 ， 虽然 在 我 们 的 模型 公式 中 ,我 们 仅 指 定 了 6 个 变量 ， 但 是 输出 时 ， 除 了 
截 距 项 之 外 ， 却 输出 了 8 个 系数 。 之 所 以 发 生 这 种 情况 ， 是 因为 Im() 函数 自动 将 一 种 称 为 
虚拟 编码 (dummy coding) 的 技术 应 用 于 模型 所 包含 的 每 一 个 因子 类 型 的 变量 中 。 

虚拟 编码 允许 名 义 特征 通过 为 一 个 特征 的 每 一 类 创建 一 个 二 元 变量 来 将 其 处 理 成 数值 型 变 
量 ， 即 如 果 观 测 值 属于 某 一 类 ， 那 就 设 定 为 1， 否则 设 定 为 0。 例 如， 性 别 (sex) 变量 有 两 类 : 
男性 (male) 和 女性 ( female)。 这 将 分 为 两 个 二 进 制 值 变量 ，R 中 将 其 命名 为 sexmale 和 
sexfemale。 对 于 观测 值 ， 如 果 sex = male, 那么 sexmale = 1、sexfemale = 0; 如 
果 sex = female, 那么 sexmale = 0、sexfemale = 1。 相 同 的 编码 适用 于 有 3 个 类 别 
甚至 更 多 类 别 的 变量 ， 具 有 4 个 类 别 的 特征 region 可 以 分 为 4 个 变量 : regionnorthwest、 
regionsoutheast、 regionsouthwest 和 regionnortheast。 

当 添 加 一 个 虚拟 编码 的 变量 到 回归 模型 中 时 ， 一 个 类 别 总 是 被 排除 在 外 作为 参照 类 别 。 
然后 ， 估 计 的 系数 就 是 相对 于 参照 类 别 解释 的 。 在 我 们 的 模型 中 ，R 自动 保留 sexfemale、 
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smokerno 和 regionnortheast 变量 ， 使 东北 地 区 的 女性 非 吸 烟 者 作为 参照 组 。 因 此 ， 
相对 于 女性 来 说 ， 男 性 每 年 的 医疗 费用 要 少 $131.30; 吸烟 者 平均 多 花费 $23 848.50， 远 超过 
非 吸 烟 者 。 此 外 ， 模 型 中 另外 3 个 地 区 的 系数 是 负 的 ， 这 意味 着 东北 地 区 倾向 于 具有 最 高 的 
平均 医疗 费用 。 

默认 情况 下 ，R 中 使 用 factor (因子 ) 变量 的 第 一 个 水 平 作为 参照 组 。 如 

果 你 想 使 用 另 一 类 (水平)， 那么 可 以 使 用 relevel () 函数 来 手动 指定 参照 

组 ， 使 用 R 中 的 ?relevel 命令 可 获取 更 多 信息 . 


A 


Sw 


线性 回归 模型 的 结果 是 合乎 逻辑 的 。 高 岭 、 吸 烟 和 肥胖 往往 与 其 他 健康 问题 联系 在 一 
起 ， 而 额外 的 家 庭 成 员 或 者 受 抚养 者 可 能 会 导致 就 诊 次 数 增加 和 预防 保健 (比如 接种 疫苗 、 
每 年 体检 ) 费用 的 增加 。 然 而 ,我 们 目前 并 不 知道 该 模型 对 数据 的 拟 合 有 多 好 ?我 们 将 在 下 
一 节 中 回答 这 个 问题 。 


6.2.4 第 4 步 一 一 评估 模型 的 性 能 

通过 在 R 命令 行 中 输入 ins_mode1， 可 以 获得 参数 的 估计 值 ， 它 们 告诉 我 们 关于 自 变 
量 是 如 何 与 因 变 量 相 关联 的 。 但 是 它们 根本 没有 告诉 我 们 用 该 模型 来 拟 合 数据 有 多 好 。 为 了 
评估 模型 的 性 能 ， 可 以 使 用 summary () 命令 来 分 析 所 存储 的 回归 模型 ， 

> summary (ins_ model) 


这 就 产生 了 以 下 的 输出 : 





Call: 
lm(formula = charges ~ age + children + bmi + sex + smoker + 
region, data = insurance) 


Residuals: 

Min 1Q Median 3Q Max 
-11304.9 -2848.1 -982.1 1393.9 29992.8 
Coefficients: 

Estimate std. Error tT value Pr(>|t|) 

(Intercept) -11938.5 987.8 -12.086 < 2e-16 "©@ 
age 256.9 11.9 21.587 < 2e-16 人 大 大 
children 475.5 137.8 3.451 0.000577 “waa 
bmi 339.2 28.6 11.860 < 2e-16 *** 
sexmale -131.3 332.9 -0.394 0.693348 
smokeryes 23848.5 413.1 57.723 < 2e-16 *** 
regionnorthwest -353.0 476.3 -0.741 0.458769 
regionsoutheast -1035.0 478.7 -2.162 0.030782 * 
regionsouthwest -960.0 477.9 -2.009 0,.044765 * 


sitgnif,. codes: OO ‘sas° 0.001 “ee 0.0L ‘** 0.05 ‘,' 0.1 
Residual standard error: 6062 on 1329 degrees of freedom 


Multiple R-squared: 0.7509, Adjusted R-squared:; 0. ;5%@ 
F-statistic: 500.8 on 8 and 1329 DF, p-value: < 2.2e-16 


开始 时 ，summary () 的 输出 可 能 看 起 来 令 人 费解 ， 但 基本 原理 是 很 容易 掌握 的 。 与 上 
述 输出 中 用 标签 编号 所 表示 的 一 样 ， 该 输出 为 评估 模型 的 性 能 提供 了 3 个 关键 的 方面 : 

1 ) Residuals ( 残 差 ) 部 分 提供 了 预测 误差 的 主要 统计 量 ， 其 中 有 一 些 统计 量 显然 是 相 
当 大 的 。 由 于 残 差 等 于 真实 值 减 去 预测 值 ， 所 以 最 大 误差 值 29 992 . 8 表明 该 模型 至 少 对 一 个 
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案例 的 费用 少 预测 了 近 $30 000。 另 一 方面 ， 误 差 值 的 50% 落 在 1Q 值 到 3Q 值 内 (第 一 四 分 位 
数 和 第 三 四 分 位 数 )， 所 以 大 部 分 的 预测 值 在 超过 真实 值 $2 850 与 低 于 真实 值 $1 400 之 间 。 

2 ) 星 号 (例如 ，***) 表示 模型 中 每 个 特征 的 预测 能 力 。 给 定 估计 值 ， 显 著 性 水 平 ( 正 
如 上 图 输出 下 方 的 “signif .codes” 部 分 所 列 出 的 ) 提供 了 一 种 度量 方式 ， 即 真实 系数 
有 多 大 可 能 性 为 0。 其 中 ，3 颗 星 的 出 现 表 示 显 著 性 水 平 为 0， 这 意味 着 该 特征 极 不 可 能 是 与 
因 变 量 无 关 的 变量 ， 而 一 个 通常 的 做 法 就 是 使 用 0.05 的 显著 性 水 平 来 表示 统计 意义 上 的 显著 
变量 。 如 果 模 型 中 几乎 没有 特征 在 统计 意义 上 是 显著 的 ， 那么 这 可 能 会 引起 关注 ， 因 为 这 将 
表明 特征 是 不 能 预测 结果 的 。 这 里 ， 模 型 有 几 个 显著 的 变量 ,而 且 从 风 辑 上 ， 它 们 看 起 来 是 
与 结果 相关 的 。 

3 ) 多 元 R 方 值 (也 称 为 判定 系数 ) 提供 了 一 种 度量 模型 性 能 的 方式 ， 即 从 整体 上 ， 模 型 
能 多 大 程度 解释 因 变量 的 值 。 它 类 似 于 相关 系数 ， 因 为 它 的 值 越 接近 于 1.0， 模 型 解释 数据 
的 性 能 就 越 好 。 由 于 RR 方 值 为 0.749， 所 以 我 们 知道 ， 近 75% 的 因 变 量 的 变化 程度 可 以 由 模 
型 解释 。 因 为 模型 的 特征 越 多 ， 模 型 解释 的 变化 程度 就 越 大 ， 所 以 调整 R 方 值 通过 惩罚 具有 
很 多 自 变 量 的 模型 来 修正 R 方 值 ,用 它 来 比较 具有 不 同 数目 的 解释 变量 的 模型 的 性 能 是 很 有 
用 的 。 

给 定 前 面 3 个 性 能 指标 ， 我 们 的 模型 表现 得 相当 好 。 对 于 现实 世界 数据 的 回归 模型 ，R 
方 值 相当 低 的 情况 并 不 少见 ， 因 此 0.75 的 有 R 方 值 实际 上 是 相当 不 错 的 。 考 虑 到 医疗 费用 的 
性 质 ， 其 中 有 些 误差 的 大 小 是 需要 关注 的 ， 但 并 不 令 人 吃惊 。 然 而 ， 如 下 一 节 所 述 ， 我 们 可 
能 会 以 略微 不 同 的 方式 来 指定 模型 ， 从 而 提高 模型 的 性 能 。 


6.2.5 ”第 5 步 一 一 提高 模型 的 性 能 

正如 前 面 所 提 到 的 ， 回 归 模型 和 其 他 机 器 学 习 方法 的 一 个 关键 区 别 就 在 于 回归 通常 会 让 
使 用 者 来 选择 特征 和 设 定 模型 。 因 此 ， 如 果 我 们 有 关于 一 个 特征 是 如 何 与 结果 相关 的 学 科 知 
识 ,我 们 就 可 以 使 用 该 信息 来 对 模型 进行 设 定 ， 并 可 能 提高 模型 的 性 能 。 


1. 模型 的 设 定 一 一 添加 非 线性 关系 

在 线性 回归 中 ， 自 变量 和 因 变 量 之 间 的 关系 被 假定 为 是 线性 的 ， 然 而 这 不 一 定 是 正确 
的 。 例 如 ， 对 所 有 的 年 龄 值 来 讲 ， 年 龄 对 医疗 费用 的 影响 可 能 不 是 恒定 的 ; 对 于 最 老 的 人 群 ， 
治疗 可 能 会 过 于 昂贵 。 

如 果 你 还 记得 ,一 个 典型 的 回归 方程 遵循 如 下 的 类 似 形式 : 

y=Q+Bx 

考虑 到 非 线性 关系 ， 可 以 添加 一 个 高 阶 项 到 回归 模型 中 ， 把 模型 当做 多 项 式 处 理 。 实 际 

上 ， 我 们 将 建立 一 个 如 下 所 示 的 关系 模型 : 
y=a+Bx+p,x 
这 两 个 模型 之 间 的 区 别 在 于 将 估计 一 个 单独 的 如， 其 目的 是 捕捉 x 项 的 效果 ， 这 人 允许 通 
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过 一 个 年 龄 的 平方 项 来 度量 年 龄 的 影响 。 
为 了 将 非 线 性 年 龄 添加 到 模型 中 ， 我 们 只 需要 创建 一 个 新 的 变量 : 
> insurance$age2 <- insurance$age”2 
然后 ， 当 我 们 建立 改进 后 的 模型 时 ， 我 们 将 把 age 和 age2 都 添加 到 Im() 公式 中 ， 例 


如 ，charges ~ age + age2- 


2. 转换 一 一 将 一 个 数值 型 变量 转换 为 一 个 二 进 制 指标 
假设 我 们 有 一 种 预感 ， 一 个 特征 的 影响 不 是 累积 的 ， 而 是 当 特 征 的 取 值 达到 一 个 给 定 的 
阔 值 后 才 产生 影响 。 例 如 ， 对 于 在 正常 体重 范围 内 的 个 人 来 说 ，BMI 对 医疗 费用 的 影响 可 能 
为 0, 但 是 对 于 肥胖 者 ( 即 BMI 不 低 于 30 ) 来 说 ， 它 可 能 与 较 高 的 费用 密切 相关 。 
我 们 可 以 通过 创建 一 个 二 进 制 指标 变量 来 建立 这 种 关系 ， 即 如 果 BMI 大 于 等 于 30， 那 
么 设 定 为 1， 和 否则 设 定 为 0。 该 二 元 特征 的 8 估计 表示 BMI 大 于 等 于 30 的 个 人 相对 于 BMI 
小 于 30 的 个 人 对 医疗 费用 的 平均 净 影 响 。 
要 创建 一 个 特征 ， 我 们 可 以 使 用 ifelse() 函数 ， 该 函数 用 于 对 向 量 中 的 每 一 个 元 素 测 
起 一 个 指定 的 条 件 ， 并 根据 条 件 是 为 true 还 是 false， 返 回 一 个 值 。 对 于 BMI 大 于 等 于 30， 
我 们 将 返回 1， 和 否则 返回 0: 
> insuranceSbmi30 <- ifelse (insurance$bmi >= 30, 1, 0) 
然后 ， 可 以 在 改进 的 模型 中 包含 bmi30 变量 ， 无 论 是 取代 原来 的 bmi 变量 ， 还 是 作为 
补充 ， 这 取决 于 我 们 是 否认 为 除了 一 个 单独 的 BMI 影响 外 ， 肥 胖 的 影响 也 会 发 生 。 如 果 没 有 
很 好 的 理由 不 这 样 做 ， 那 么 我 们 将 在 最 终 的 模型 中 包含 两 者 . 
如 果 你 在 决定 是 否 要 包含 一 个 变量 时 遇 到 困难 ， 一 种 常见 的 做 法 就 是 包含 它 
并 检验 其 显著 性 水 平 。 然 后 ， 如 果 该 变量 在 统计 上 不 显著 ， 那 么 就 有 证 据 支 
持 在 将 来 排除 该 变量 


3. 模型 的 设 定 一 一 加 入 相互 作用 的 影响 


到 目前 为 止 ， 我 们 只 考虑 了 每 个 特征 对 结果 的 单独 影响 (贡献 ) 。 如 果 某 些 特征 对 因 变 量 
有 综合 影响 ， 那 么 该 怎么 办 呢 ? 例如 ， 吸 烟 和 肥胖 可 能 分 别 都 有 有 害 的 影响 ， 但 是 假设 它们 
的 共同 影响 可 能 会 比 它 们 每 一 个 单独 影响 之 和 更 糟糕 是 合理 的 。 

当 两 个 特征 存在 共同 的 影响 时 ， 这 称 为 相互 作用 (interaction)。 如 果 怀 疑 两 个 变量 相互 
作用 ， 那么 可 以 通过 在 模型 中 添加 它们 的 相互 作用 来 检验 这 一 假设 ， 可 以 使 用 RR 中 的 公式 语 
法 来 指定 相互 作用 的 影响 。 为 了 体现 肥胖 指标 (bmi30) 和 吸烟 指标 ( smoker) 的 相互 作 
用 ， 可 以 这 样 的 形式 写 一 个 公式 : charges ~ bmi30*smoker。 

运算 符 * 是 一 个 简写 ， 用 来 指示 R 对 如 下 进行 建 模 : 


charges ~ bmi30 + smokeryes + bmi30:smokeryes 
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在 展开 式 中 ， 运 算 符 : (冒号 ) 表示 bmi30:smokeryes 是 两 个 变量 之 间 的 相互 作用 。 
注意 ， 该 展开 式 还 自动 包括 bmi30 和 smoker 变量 及 其 相互 作用 。 
如 果 模 型 中 没有 添加 每 一 个 相互 作用 的 变量 ， 那 么 相互 作用 就 不 应 该 包含 在 
模型 中 。 如 果 你 总 是 使 用 运算 符 * 创建 相互 作用 ， 那 么 这 将 不 是 一 个 问题 ， 
因为 R 将 自动 添加 所 需要 的 变量 。 


~ 


4. 全 部 放 在 一 起 一 一 一 个 改进 的 回归 模型 


基于 医疗 费用 如 何 与 患者 特点 联系 在 一 起 的 一 点 学 科 知 识 ， 我 们 开发 了 一 个 我 们 认为 更 
加 精确 专用 的 回归 公式 。 下 面 就 总 结 一 下 我 们 的 改进 : 

口 增加 了 一 个 非 线性 年 龄 项 。 

口 为 肥胖 创建 了 一 个 指标 。 

口 指定 了 肥胖 和 吸烟 之 间 的 相互 作用 。 

我 们 将 像 之 前 一 样 使 用 lm() 函数 来 训练 模型 ， 但 是 这 一 次 ,我 们 将 添加 新 构造 的 变量 
和 相互 作用 项 : 

> ins model2 <- lm(charges ~ age + age2 + children + bmi + sex + 

bmi30*smoker + region, data = insurance) 


接 下 来 ,我们 概述 结果 : 


> summary (ins_ model2) 


Gall; 
1m(formula = charges ~ age + age2 + children + bmi + sex + bmi30 * 
smoker + region, data = insurance) 


Residuals: 
Min 1Q Median 3Q Max 
-17296.4 -1656.0 -1263.3 -722.1 24160.2 


Coefficients: 

Estimate std. Error t value Pr{>|t|) 
(Intercept) 134.2509 1362.7511 0.099 0.921539 
age -32.6851 59.8242 -0.546 0.584915 
age2 3.7316 0.7463 5.000 6.50e-07 ™*™ 
children 678.5612 105.8831 6.409 2.04e-10 “mm 
bmi 120.0196 34.2660 3.503 0.000476 wax* 
sexmale -496. 8245 244.3659 -2.033 0.042240 * 
bmi30 -1000.1403 422.8402 -2.365 0.018159 * 


smokeryes 13404.6866 439.9491 30.469 < 2e-16 w** 
regionnorthwest -279.2038 349.2746 -0.799 0.424212 
regionsoutheast -828. 5467 351.6352 -2.356 0. 018604 * 
regionsouthwest -1222.6437 350.5285 -3.488 0.000503 ™** 
bmi30:smokeryes 19810.7533 604.6567 32.764 < 2e-16 ** 廊 
signif. codes: 0 ‘*x*' 0.001 :ez 0.01 ‘*’ 0.05 ‘.? 0.1*'1 
Residual standard error: 4445 on 1326 degrees of freedom 


Multiple R-squared: 0.8664, Adjusted R-squared: 0.8653 
F-statistic: 781.7 on 11 and 1326 DF, p-value: < 2.2e-16 


分 析 该 模型 的 拟 合 统计 量 有 助 于 确定 我 们 的 改变 是 否 提高 了 回归 模型 的 性 能 。 相 对 于 
我 们 的 第 一 个 模型 ，R 方 值 从 0.75 提高 到 约 0.87， 我 们 的 模型 现在 能 解释 医疗 费用 变化 的 
87%。 此 外 ,我们 关于 模型 函数 形式 的 理论 似乎 得 到 了 验证 ， 高 阶 项 age2 在 统计 上 是 显著 
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的 ， 肥 胖 指标 bmi30 也 是 显著 的 。 肥 胖 和 吸烟 之 间 的 相互 作用 表明 了 一 个 巨大 的 影响 ， 除 了 
单独 吸烟 增加 的 超过 $13 404 的 费用 外 ， 肥 胖 的 吸烟 者 每 年 要 另外 花费 $19 810， 这 可 能 表明 
吸烟 会 加 剧 (恶化 ) 与 肥胖 有 关 的 疾病 。 


6.3 理解 回归 树 和 模型 树 


你 是 否 还 记得 在 第 5 章 中 ， 决 策 树 建立 了 一 个 很 像 流程 图 的 模型 ， 在 这 个 模型 中 ， 决 
策 节 点 、 叶 节点 和 分 支 定 义 了 一 系列 可 用 于 案例 分 类 的 决策 。 通 过 对 树 的 生长 算法 做 小 幅 调 
整 ， 这 些 树 可 以 同样 应 用 于 数值 预测 。 在 本 节 中 ， 我 们 将 只 考虑 决策 树 用 于 数值 预测 ,不同 
于 将 其 用 于 分 类 。 

决策 树 用 于 数值 预测 可 分 为 两 类 。 第 一 类 称 为 回归 树 ( regression tree)， 是 在 20 世纪 80 
年 代 作 为 分 类 回归 树 (Classification and Regression Tree，CART) 算法 的 一 部 分 引入 的 。 尽 管 
叫 这 个 名 字 ,， 但 是 正如 本 章 前 面 所 描述 的 ， 回 归 树 并 没有 使 用 线性 回归 的 方法 ， 而 是 基于 到 
达 叶 节点 的 案例 的 平均 值 做 出 预测 


LE CART 算法 的 详细 信息 参见 Classification and Regression Trees by L. Breiman， 
人 
— JH.Friedman, C.J. Stone, and R.A. Olshen (Chapman & Hall, 1984)。 





用 于 数值 预测 的 第 二 类 决策 树 称 为 模型 树 ( model trees)， 比 回归 树 要 晚 几 年 引入 ， 它 们 
不 太 广 为 人 知 ， 但 或 许 功 能 更 强大 。 模 型 树 和 回归 树 以 大 致 相同 的 方式 生长 ， 但 是 在 每 个 叶 
节点 ,根据 到 达 该 节点 的 案例 建立 多 元 线性 回归 模型 。 根 据 叶 节点 的 数目 ， 一 棵 模型 树 可 能 
会 建立 几 十 甚至 几 百 个 这 样 的 模型 ， 这 可 能 会 使 模型 树 比 同等 的 回归 树 更 难 理解 ， 但 好 处 是 
它们 也 许 能 建立 一 个 更 加 精确 的 模型 。 
最 早 的 模型 树 算法 M5 的 描述 参见 Leaming with Continuous Classes, Proceedings 
KR of the $th Australian Joint Conference on Artificial Intelligence, pp. 343-348, by 
J.R. Quinlan (1992)。 





将 回归 加 入 到 决策 树 


能 够 进行 数值 预测 的 决策 树 提供 了 一 个 引 人 注 目 ， 但 经 常 被 忽略 的 ， 可 以 取代 回归 模型 
的 方法 。 相 对 于 更 常见 的 回归 方法 ， 回 归 树 和 模型 树 的 优点 与 缺点 都 列 在 下 表 中 。 











将 决策 树 的 优点 与 对 数值 型 数据 建立 模型 的 能 力 相 结合 





e 不 像 线 性 回归 那样 常用 
e 能 自动 选择 特征 ， 人 允许 该 方法 与 大 量 特征 一 起 使 用 。 需要 大 量 的 训练 数据 
。 不 需要 使 用 者 事先 指定 模型 。 难以 确定 单个 特征 对 于 结果 的 总 体 兆 影响 
e 拟 合 某 些 类 型 的 数据 可 能 会 比 线性 回归 好 得 多 。 可 能 比 回归 模型 更 难 解释 
e 不 要 求 用 统计 的 知识 来 解释 模型 
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虽然 传统 的 回归 方法 通常 是 数值 预测 任务 的 第 一 选择 ， 但 是 在 某 些 情况 下 ， 数 值 决策 树 
提供 了 明显 的 优势 。 例 如 ， 决 策 树 可 能 更 适合 于 具有 许多 特征 或 者 特征 和 结果 之 间 具 有 许多 
复杂 、 非 线性 关系 的 任务 ， 这 些 情形 给 回归 带 来 了 挑战 。 而 且 ， 回 归 建 模 关 于 数值 型 数据 是 
如 何 分 布 的 假设 往往 被 现实 世界 的 数据 所 违背 ,但 决策 树 就 不 存在 这 样 的 情况 。 

用 于 数值 预测 的 决策 树 的 建立 方式 与 用 于 分 类 的 决策 树 的 建立 方式 大 臻 相同。 从 根 节点 
开始 ， 按 照 特征 使 用 分 而 治之 的 策略 对 数据 进行 划分 ， 在 进行 一 次 分 割 后 ， 将 会 导致 结果 最 
大 化 地 均匀 增长 。 在 分 类 决策 树 中 ， 一 致 性 (均匀 性 ) 是 由 炉 值 来 度量 的 ， 而 对 于 数值 型 数 
据 是 未 定义 的 。 于 是 ， 对 于 数值 决策 树 ， 一 致 性 (均匀 性 ) 可 以 通过 统计 量 (比如 方差 、 标 
准 差 或 者 平均 绝对 偏差 ) 来 度量 。 根 据 所 使 用 的 决策 树 生 长 算法 ， 一致 性 (均匀 性 ) 度量 可 
能 会 有 所 不 同 ,但 原理 是 基本 相同 的 。 

一 个 常见 的 分 割 标准 称 为 标准 偏差 减少 (Standard Deviation Reduction，SDR)， 它 由 下 面 
的 公式 定义 : 


SDR =sd (了 )-E saln sd(T 
在 这 个 公式 中 ， 函 数 sd(7) 指 的 是 集合 了 中 的 值 的 标准 差 ， 而 也， er ea 
一 个 特征 的 一 次 分 割 产生 的 值 的 集合 ; | 项 指 的 是 集合 7 中 观测 值 的 数量 。 从 本 质 上 讲 ， 
式 度量 的 是 从 原始 值 的 标准 差 减 去 分 割 后 加 权 的 标准 差 的 减少 量 。 
举 个 例子 ， 考 虑 下 面 的 情况 ， 其 中 ， 一 棵 决策 树 需 要 决定 是 对 二 元 特征 4 进行 分 割 还 是 
对 二 元 特征 B 进行 分 割 。 


| 1 122345566777 7 


| 1 
T T 
使 用 由 图 中 所 建议 的 分 割 产生 的 组 ， 可 以 如 下 对 4 和 8B 计算 SDR， 这 里 使 用 length () 
函数 返回 一 个 向 量 中 元 素 的 数目 。 注 意 ， 整 个 组 了 命名 为 tee， 以 避免 覆盖 R 中 内 置 的 了 () 
和 + 上 () 辆 数 。 





区 tes ”人 

5 atl es (Ll, Ly 1 2 27 3 4, 5 SS) 

> at2 = El6s 6r 97 Tr 7 7) 

ED 

> bt2 = RS Sy 6 Ei 7 TT; Tr TD 

> sdr a <- sd(tee) - (length(at1) / length(tee) * sd(at1) + 
length(at2) / length(tee) * sdl(at2)) 

> sdr b <- sd(tee) - (length(bt1) / length(tee) * sd(bt1) + 


length(bt2) / lengthl(tee) * sd(bt2)) 


让 我 们 来 比较 4 和 8B 的 SDR: 
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> sdr a 
[1] 1.202815 
> sdr Pb 
[41 -392754 


关于 4 的 分 割 的 SDR 值 大 约 为 1.2， 关 于 B 的 分 割 的 SDR 值 大 约 为 1.4。 由 于 对 特征 
BB， 标准 差 减 少 得 更 多 ， 所 以 决策 树 将 首先 使 用 特征 8， 它 产生 了 比特 征 4 略 多 的 一 致 性 ( 均 
匀 性 ) 集合 - 

假设 决策 树 在 这 里 停止 生长 ， 只 使 用 了 这 一 个 分 割 ， 那 么 回归 树 的 工作 就 完成 了 。 它 可 
以 为 新 的 案例 进行 预测 ， 取 决 于 它们 是 落 入 组 7 还 是 组 7,。 如 果 案 例 最 后 在 mi 中， 那么 模 
型 将 预测 mean (bt1)=2， 否 则 将 预测 mean (bt2) =6.25。 

相 比 之 下 ， 模 型 树 将 多 走 一 步 。 使 用 落 入 组 bt1 的 7 个 训练 案例 和 落 和 人 组 bt2 的 8 个 
训练 案例 ， 模 型 树 可 以 建立 一 个 结果 相对 于 特征 4 的 线性 回归 模型 (在 回归 模型 中 ， 特 征 B 
没有 任何 帮助 ， 因 为 所 有 位 于 叶 节 点 的 个 案 与 有 相同 的 值 )。 然 后 ， 模 型 树 可 以 使 用 两 个 
线性 模型 中 的 任何 一 个 为 新 的 案例 做 出 预测 。 

为 了 进一步 说 明 这 两 种 方法 之 间 的 差异 ,我 们 研究 一 个 现实 世界 的 例子 。 


6.4 ”例子 一 一 用 回归 树 和 模型 树 估计 和 葡萄酒 的 质量 


葡萄 酒 酿造 是 一 个 充满 挑战 和 竞争 力 的 行业 ， 它 为 巨大 的 利润 提供 了 可 能 。 然 而 ,也 有 
诸多 因素 有 助 于 提升 一 个 葡萄 酒 酿造 厂 的 盈利 能 力 。 作 为 一 种 农产品 ， 有 包括 天 气 和 生长 环 
境 在 内 的 多 个 变量 影响 用 特定 品种 葡萄 醉 造 的 酒 的 质量 。 装 瓶 和 生产 同样 会 影响 风味 ， 是 更 
好 还 是 更 差 。 其 至 产品 进入 市 场 的 方式 ， 从 瓶 身 的 设计 到 零售 价 ， 都 会 影响 顾客 的 味道 感 。 

因此 ， 葡 萄 酒 酿造 业已 经 在 数据 采集 和 可 能 有 助 于 葡萄 酒 酿造 决策 科学 的 机 器 学 习 方法 
中 投入 了 巨 资 。 例 如 ， 机 器 学 习 已 经 用 来 发 现 来 自 不 同 地 区 的 葡萄 酒 化 学 成 分 的 主要 差异 ， 
或 者 用 来 确定 导致 葡萄 酒 味道 更 甜 的 化 学 因素 。 

近来 ， 机 器 学 习 已 经 用 来 协助 葡萄 酒 质量 的 评级 一 一 一 个 极其 困难 的 任务 。 由 一 位 知名 
的 葡萄 酒 评论 家 撰写 的 一 份 评论 往往 决定 了 该 产品 最 终 是 在 货架 的 顶部 还 是 底部 ， 尽 管事 实 
上 在 双 盲 试验 中 对 葡萄 酒 评级 时 ， 专 家 评委 的 意见 是 不 一 致 的 。 

在 这 个 案例 学 习 中 ， 我 们 将 使 用 回归 树 和 模型 树 来 创建 一 个 能 模仿 葡萄 酒 专家 评级 的 系 
统 。 由 于 决策 树 产生 的 模型 很 容易 理解 ， 所 以 这 可 以 让 葡萄 酒 酿造 师 来 确定 有 助 于 葡萄 酒 更 
好 评级 的 关键 因素 。 或 许 更 重要 的 是 ， 该 系统 不 需要 忍受 品 酒 的 人 为 因素 ， 比 如 评级 者 的 情 
绪 和 鉴赏 疲劳 。 因 此 ， 计 算 机 辅助 的 葡萄 酒 测试 可 能 会 产生 更 好 的 产品 以 及 更 客观 、 一 致 、 
公平 的 评级 。 


6.4.1 第 1 步 一 一 收集 数据 


为 了 研究 葡萄 酒 评 级 模型 ， 我 们 将 使 用 由 P Cortez, A. Cerdeira 、F. Almeida 、T. Matos 
和 J. Reis 捐赠 给 UCI 机 器 学 习 数 据 仓 库 (UCI Machine Learning Data Repository) 的 数据 。 这 
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些 数据 包括 来 自 葡萄 牙 (世界 领先 的 葡萄 酒 生产 国之 一 ) 的 红色 和 白色 Vinho Verde ( 青 酒 ) 
葡萄 酒 案例 。 因 为 有 助 于 获得 高 度 评价 的 葡萄 酒 的 因素 可 能 在 红色 和 白色 品种 之 间 有 所 不 
同 ， 所 以 为 了 便于 分 析 ， 我 们 将 只 研究 较 受 欢迎 的 白 葡萄 酒 。 
要 理解 这 个 例子 ， 你 需要 从 Packt 出 版 社 的 网 站 下 载 whitewines.csv 文 
| 件 ， 并 将 该 文件 保存 到 R 的 工作 目录 下 。 如 果 你 想 自己 研究 这 些 数据 ， 文 件 
redwines .csv 也 可 以 下 载 。” 


白 葡萄 酒 数据 包含 了 4898 个 葡萄 酒 案例 的 11 种 化 学 特性 的 信息 。 对 于 每 种 葡萄 酒 ， 实 
验 室 分 析 测 量 的 特性 包括 酸性 、 含 糖 量 、 氧 化 物 含量 、 硫 的 含量 、 酒 精度 、pH 值 和 密度 。 然 
后 ,这些 样本 会 由 不 少 于 3 名 鉴定 者 组 成 的 小 组 以 育 品 的 方式 进行 评级 ， 质 量 尺度 从 很 差 ) 
到 10 ( 极 好 )。 如 果 鉴 定 者 对 于 评级 没有 达成 一 臻 意见， 那么 就 会 使 用 中 间 值 。 

Cortez 的 研究 评估 了 3 种 机 器 学 习 方 法 多 元 回归 、 人 工 神 经 网 络 和 支持 向 量 机 对 葡萄 酒 
数据 建立 模型 的 能 力 。 在 本 章 的 前 面 ， 我 们 已 经 介绍 了 多 元 回归 ， 我 们 将 在 第 7 章 学 习 神 经 
网 络 和 支持 向 量 机 。 该 研究 发 现 ， 支 持 向 量 机 提供 了 比 线性 回归 模型 显著 更 好 的 结果 。 然 
而 ， 与 回归 不 同 的 是 ,支持 向 量 机 模型 很 难 解释 。 使 用 回归 树 和 模型 树 ， 我 们 或 许 能 够 改善 
回归 的 结果 ， 同 时 还 能 拥有 一 个 容易 理解 的 模型 。 

， 要 了 解 更 多 关于 葡萄 酒 的 研究 ， 请 参考 已 发 表 的 文章 : Modeling wine preferences 

KW by data mining from physicochemical properties, Decision Support Systems, Vol. 

47, pp. 547-553, by P. Cortez, A. Cerdeira, F. Almeida, T. Matos, and J. Reis (2009)。 


6.4.2 第 2 步 一 一 探索 和 准备 数据 

通常 ， 使 用 read.csv() 函数 将 数据 加 载 到 R 中 。 由 于 所 有 的 特征 都 是 数值 型 的 ， 所 
以 我 们 可 以 放心 地 忽略 stringsAsFactors 人 参数。 

> Wine <- read.csv ("whitewines.csv'") 

wine (葡萄 酒 ) 数据 包括 11 个 特征 和 结果 变量 quality (品质 结果 )， 如 下 所 示 : 


> str (wine) 
'data.frame': 4898 obs. of 12 variables: 


$ fixed.acidity :i 

$ volatile.acidity a Ti 062 (0,22 0.19 日:47 0.29 (0.12 35， 
$ citric.acid : Ham 0.24 0.2 .26 01 0.21 .4 < 

$ residual.sugar : Dum 1.1 16 7 了 74 .3 9.65 0.9 ,5 

$ chlorides : num 0.039 0.044 0.034 0.036 0.041 ... 
$ free.sulfur.dioxide : num 6 41 33 11 36 22 33 17 34 40 ... 
$ total.sulfur.dioxide: num 62 113 123 74 119 95 152 ... 

$ density : Hum 0.993 0.999 0.995 0.991 0.993 ,。.. 
$ pH 2 Dam 3:41 3.22 3.49 3.48 2.99 3:25 ;.s 
$ sulphates ; num 0.32 0.46 0.42 0.54 0.34 0.43 ... 
$ alcohol : Bm 10-4 8.9 0 HHL.2 10.9 .. 

$ quality i: int 5566645566667 ass 
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相 比 于 其 他 类 型 的 机 器 学 习 模 型 ， 决 策 树 的 优点 之 一 就 是 它们 可 以 处 理 多 种 类 型 的 数据 
而 无 需 进行 预 处 理 。 这 意味 着 不 需要 将 特征 规范 化 或 者 标准 化 。 

然而 ， 为 了 增加 模型 评价 的 信息 ， 还 是 需要 花 点 精力 来 研究 结果 变量 分 布 的 。 例 如 ， 假 
设 葡萄 酒 之 间 在 质量 上 几乎 没有 变化 ， 或 者 葡萄 酒 落 人 一 个 双 峰 分 布 : 要 么 非常 好 ， 要 么 非 
常 差 。 这 些 情况 可 能 会 给 模型 带 来 麻烦 。 为 了 检查 这 种 极端 情形 ， 我 们 可 以 使 用 直方 图 来 研 
究 葡 萄 酒 质量 的 分 布 : 

> hist (wine$quality) 

这 就 产生 了 下 面 的 图 : 


Histogram of wineSquality 


2000 


Frequency 
500 1000 


0 


wine$quality 

葡萄 酒 的 质量 值 似乎 遵循 一 个 相当 于 正 态 的 钟 形 分 布 ， 大 约 以 数值 6 为 中 心 。 从 直观 上 
看 ， 这 是 有 意义 的 ， 因 为 大 部 分 葡萄 酒 的 质量 为 平均 质量 ， 少 数 葡萄 酒 特别 差 或 者 特别 好 。 
尽管 这 里 没有 显示 结果 ， 但 是 研究 summary (wine) 的 输出 同样 有 益 于 发 现 异 常 值 或 者 其 
他 潜在 的 数据 问题 。 虽 然 决 策 树 对 于 难以 处 理 的 数据 是 相当 稳健 的 ， 但 是 它 总 会 道 慎 地 检查 
严重 的 问题 。 目 前 ， 我 们 将 假设 数据 是 可 靠 的 。 

然后 ， 最 后 一 步 就 是 将 数据 分 为 训练 数据 集 和 测试 数据 集 。 由 于 wine (葡萄酒 ) 数据 已 
经 处 理 成 随机 的 顺序 ， 所 以 可 以 将 数据 分 割 成 两 个 连续 行 的 集合 ， 如 下 所 示 : 

> wine train <- wine[1:3750，] 

> wine _ test <- wine[3751:4898, ] 

为 了 反映 Cortez 使 用 过 的 条 件 ， 我 们 分 别 使 用 75% 的 数据 集 用 于 训练 ，25% 的 数据 集 
用 于 测试 。 我 们 将 根据 测试 数据 来 评估 基于 决策 树 的 模型 的 性 能 ， 并 看 看 我 们 是 否 能 够 获得 
与 先前 的 研究 学 习 相 媲美 的 结果 。 


6.4.3 ”第 3 步 一 一 基于 数据 训练 模型 


我 们 将 从 训练 一 个 回归 树 模型 开始 。 虽 然 几乎 决策 树 的 所 有 实现 都 可 以 用 来 进行 回归 
树 建 模 ， 但 是 rpart (递归 划分 ) 添加 包 中 提供 了 像 CART (分 类 回归 树 ) 团队 中 所 描述 的 


wwaibbt.com DOOODOODOODOO 


138 ”> 机 器 学 习 与 R 语 言 


最 可 靠 的 回归 树 实现 。 作 为 CART 的 经 典 R 实现 ，rpart 添加 包 同 样 有 着 充分 的 帮助 文档 ， 
有 用 于 可 视 化 和 评估 rpart 模型 的 多 个 函数 的 支持 。 
安装 rpart 添加 包 需 要 使 用 install .packages ("rpart") 命令 。 然 后 ， 使 用 命令 

library (rpart)， 就 可 以 将 其 加 载 到 R 的 会 话 中 。 使 用 下 面 的 语法 ， 所 包含 的 rpart () 
函数 就 可 以 拟 合 分 类 树 或 者 回归 树 。 该 函数 将 使 用 默认 的 设置 来 拟 合 一 棵 决策 树 ， 通 常情 况 
下 ， 其 执行 效果 相当 好 。 如 果 你 需要 更 多 的 微调 设置 ， 请 使 用 ?rpart .control 命令 来 了 
解 控制 参数 。 

回归 树 语法 

应 用 rpart 添加 包 中 的 函数 rpart() 

建立 模型 : 


m <- rpart(ldv ~ iv, data = mydata ) 

e dv: 是 mydata 数据 框 中 需要 建 模 的 因 变 量 

e iv: 为 一 个 R 公式 ， 用 来 指定 mydata 数据 框 中 被 用 于 模型 的 自 变 量 
e data: 为 包含 变量 dv 和 变量 iv 的 数据 框 

该 函数 返回 一 个 回归 树 模型 对 象 ， 该 对 象 能 够 用 于 预测 

进行 预测 : 


<- predict (m, test, type = "vector") 


test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 建立 模型 的 训练 数据 有 同样 的 特征 
type : 给 定 返 回 的 预测 值 的 类 型 ， 取 值 为 "vectoz" (预测 数值 型 数据 )， 或 者 "class'" (预测 类 别 )， 或 
者 "prob" (预测 类 别 的 概率 )。 

该 函数 的 返回 值 取决 于 type 参数 ， 它 是 一 个 含有 预测 值 的 向 量 。 

例子 : 


p 
e m: 由 函数 rpart () 训练 的 一 个 模型 
全 
. 


wine model <- rpart (quality - alcohol + sulfates, data = wine train) 





wine predictions <- predict (wine model) ,wine test) 


使 用 RR 的 公式 界面 ,我 们 可 以 指定 quality (质量 ) 为 结果 变量 ( 因 变 量 )， 并 使 用 点 
符号 “. ”使 得 wine_train (葡萄 酒 训练 ) 数据 中 的 其 他 所 有 列 被 用 来 作为 预测 变量 ( 自 
变量 )。 由 此 产生 的 模型 对 象 命名 为 m.rpart， 以 区 分 后 面 将 要 训练 的 模型 树 : 


> m.rpart <- rpart (quality ~ ., data = wine train) 
获取 关于 该 树 的 基本 信息 ， 只 需要 输入 该 模型 对 象 的 名 称 : 
> m.rpart 

n= 3750 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 3750 2945.53200 5.870933 


2) alcohol< 10.85 2372 1418.86100 5.604975 
4) volatile.acidity>=0.2275 1611 821.30730 5.432030 
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8) volatile.acidity>=0.3025 688 278.97670 5.255814 * 
9) volatile.acidity< 0.3025 923 505.04230 5.563380 * 
5) volatile.acidity< 0.2275 761 447.36400 5.971091 * 
3) alcohol>=10.85 1378 1070.08200 6.328737 
6) free.sulfur.dioxide< 10.5 84 95.55952 5.369048 * 
7) free.sulfur.dioxide>=10.5 1294 892.13600 6.391036 
14) alcohol< 11.76667 629 430.11130 6.173291 
28) volatile.acidity>=0.465 11 10.72727 4.545455 * 
29) volatile.acidity< 0.465 618 389.71680 6.202265 * 
15) alcohol>=11.76667 665 403.99400 6.596992 * 


对 于 决策 树 中 的 每 个 节点 ， 到 达 决 策 点 的 案例 数量 都 列 出 来 了 。 例 如 ， 所 有 的 3750 个 案 
例 从 根 节点 开始 ， 其 中 ， 有 2372 个 案例 的 alcohol < 10.85，1378 个 案例 的 alcohol>= 
10.85。 因 为 alcohol (酒精 ) 是 决策 树 中 第 一 个 使 用 的 变量 ， 所 以 它 是 葡萄 酒 质量 中 唯一 
最 重要 的 指标 

用 * 表示 的 节点 是 终端 或 者 叶 节点 ， 这 意味 着 它们 会 产生 预测 (这 里 作为 yval 列 出 
来 )。 例如， 节点 5 有 一 个 5.971 091 的 yYval。 当 该 决策 树 用 来 预测 时 ， 对 任意 一 个 葡萄 酒 
案例 ， 如 果 其 alcohol < 10.85 且 volatile.acidity < 0.2275， 那 么 它 的 质量 值 将 预 
测 为 5.97， 

关于 该 决策 树 拟 合 的 更 详细 的 总 结 ， 包 括 每 一 个 节点 的 均 方 误差 和 整体 特征 重要 性 的 度 
量 ， 可 以 通过 使 用 summary (m.rpart) 命令 获得 . 


可 视 化 决策 树 
尽管 只 使 用 前 面 的 输出 就 可 以 理解 该 决策 树 ， 但 是 使 用 可 视 化 通常 更 容易 理解 。 由 
Stephen Milborrow 创建 的 rpart .plot 包 提 供 了 一 个 易于 使 用 的 函数 来 生成 具有 出 版 质量 
的 决策 树 。 
LA 关于 rpart.plot 更 多 的 信息 ， 包 括 该 函数 可 以 生成 的 其 他 样本 类 型 的 
从 一 ”决策 树 图 形 ， 请 参考 该 作者 的 网 站 : http://www.milbo.org/rpart-plot/, 


在 使 用 install .packages ("rpart .plot") 命令 安装 该 包 后 ,rpart .plot () 
函数 可 以 根据 任意 一 个 rpart 模型 对 象 生成 一 个 决策 树 图 形 。 下 面 的 命令 绘制 了 我 们 之 前 
建立 的 回归 树 的 图 : 


> library (rpart .plot) 
> rpart.plot (m.rpart, digits = 3) 


产生 的 决策 树 图 形 如 下 所 示 。 

除了 用 于 控制 包含 在 图 中 数字 位 数 的 参数 aigits 以 外 ,许多 可 视 化 的 其 他 方面 都 可 以 
调整 。 下 面 的 命令 仅 显示 了 几 个 有 用 的 选项 ， 参 数 fallen .leaves 强制 叶 节 点 与 图 的 底部 
保持 一 致 (对 齐 )， 而 参数 type 和 参数 extra 影响 决策 和 节点 被 标记 的 方式 。 


> rpart .plot (m.rpart, digits = 4, fallen.leaves = TRUE, 
type = 3, extra = 101) 
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> 


volatile > 228 free.sul 一 10.S 


yd Vo, 
4 
G6.26) (6.56) volatile >=0.465 


这 些 变化 的 结果 是 一 个 看 上 去 截然 不 同 的 树 形 图 : 


> 








alcohol < Pr 85 
>=10.85 
volatile >=0.2275 free.sul< 10.5 
<0.2275 >=10.5 
volatile > =0.3025 alcohol 一 11.77 


<0.3025 >=11.77 


volatile >=0.465 











<0.465 


6.202 
n=618 16.48% 

4.545 6.597 
n=]11 0.29% n=665 17.73% 





$.256 5.971 
n=688 18.35% n=76]1 20.29% 


YY 




















为 了 使 用 基于 测试 数据 的 回归 树 模型 进行 预测 ， 我 们 使 用 predict () 函数 。 在 默认 情况 
下 ， 该 函数 返回 结果 变量 的 数值 估计 ， 我 们 将 把 它 的 返回 值 保 存在 一 个 名 为 p .rpart 的 向 量 中 : 


> p.rpart <- predict (m.rpart, wine test) 
我 们 预测 的 主要 统计 量 表明 了 一 个 潜在 的 问题 ， 预 测 值 与 真实 值 相 比 落 在 一 个 更 罕 的 范围 内 : 


> summary (p.rpart) 
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Min. lst Qu. Median Mean 3rd Qu. Max . 

4.545 下 | S5971 5.893 6.202 G597 
> summary (wine test$quality) 

Min. lst Qu. Median Mean 3rd Qu. Max . 

3.000 5.000 6.000 5.901 6.000 9.000 


这 一 发 现 表明 ， 该 模型 不 能 正确 识别 极端 的 情形 ， 尤 其 是 最 好 的 和 最 差 的 葡萄 酒 。 男 一 
方面 ， 在 第 一 四 分 位 数 和 第 三 四 分 位 数 分 位 数 之 间 ， 我 们 可 能 做 得 不 错 。 

预测 的 质量 ( quality) 值 和 真实 的 质量 ( quality) 值 之 间 的 相关 性 提供 了 一 种 度量 
模型 性 能 的 简单 方法 。 回 想 一 下 ，cor () 函数 可 以 用 来 度量 两 个 相同 长 度 向 量 之 间 的 关系 ， 
使 用 该 函数 可 以 比较 预测 值 对 应 于 真实 值 的 程度 有 多 好 : 


> cor(p.rpart, wine test$quality) 
[1] 0.5369525 


相关 系数 = 0.54 肯定 是 可 以 接受 的 。 然 而 ， 相 关系 数 只 是 度量 了 预测 值 与 真实 值 的 相关 
性 有 多 强 ， 而 不 是 度量 预测 值 离 真实 值 有 多 远 的 方法 。 


用 平均 绝对 误差 度量 性 能 

一 般 来 说 ， 男 一 种 思考 模型 性 能 的 方法 就 是 考虑 它 的 预测 值 离 真 实 值 有 多 远 ， 这 种 度量 
方法 称 为 平均 绝对 误差 (Mean Absolute Error，MAE)。MAE 的 方程 如 下 所 示 ， 其 中 ,nn 表示 
预测 值 的 数量 ，e; 表示 第 i 个 预测 值 的 误差 : 


MAE=+ lel 
nN j=l 


从 本 质 上 讲 ， 这 个 方程 得 到 的 是 误差 绝对 值 的 均值 。 由 于 误差 仅仅 是 预测 值 与 真实 值 之 
间 的 差 值 ， 所 以 可 以 创建 一 个 简单 的 MAE () 函数 ， 如 下 所 示 : 


> MAE <- function(actual，Ppredicted) { 
mean (abs (actual - predicted)) 


} 
然后 ， 预 测 的 MAE 为 : 


> MAE(p.rpart, wine test$quality) 
[1] 0.5872652 


就 平均 而 言 ， 这 意味 着 模型 的 预测 值 与 真实 的 质量 分 数 之 间 的 差 值 大 约 为 0.59。 基 于 质 
量 的 尺度 是 从 0 ~ 10， 这 似乎 表明 我 们 的 模型 做 得 相当 好 。 

另 一 方面 ， 回 忆 一 下 ， 大 多 数 葡萄 酒 既 不 是 很 好 也 不 是 很 差 。 通 常情 况 下 ， 质 量 的 分 数 
大 约 为 5 ~ 6。 因 此 ， 根 据 这 个 指标 ， 一 个 什么 都 没有 做 而 是 仅仅 预测 了 均值 的 分 类 器 可 能 
同样 会 做 得 相当 好 。 

训练 数据 中 的 平均 质量 等 级 如 下 所 示 : 


> mean(wine train$quality) 
[1] 5.870933 
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如 果 我 们 对 每 一 个 葡萄 酒 案例 预测 的 值 为 5.87， 那 么 我 们 将 只 有 大 约 0.67 的 平均 绝对 误差 


> mean abserror(5.87, wine test$quality) 
[1] 0.6722474 


回归 树 (MAE = 0.59 ) 比 估 算 的 均值 (MAE = 0.67 ) 平均 更 接近 于 真实 的 质量 分 数 ， 但 
相差 不 是 很 大 。 作 为 比较 ，Cortez 报告 了 神经 网 络 模型 的 MAE 为 0.58， 支 持 向 量 机 的 MAE 
为 0.45。 这 表明 ， 模 型 还 有 改善 的 空间 。 


6.4.5 第 5 步 一 一 提高 模型 的 性 能 

为 了 提高 学 习 算法 的 性 能 ， 我 们 尝试 构建 一 棵 模型 树 。 回 想 一 下 ， 模 型 树 可 以 通过 回归 
模型 取代 叶 节 点 来 改善 回归 树 。 这 通常 会 导致 比 回 归 树 更 精确 的 结果 ， 而 回归 树 在 叶 节 点 进 
行 预测 时 只 使 用 了 一 个 单一 的 值 。 

上 有 目前， 模型 树 中 最 先进 的 算法 是 由 Wang and Witten 提出 的 M5' 算法 (M5-prime)， 这 是 
对 Quinlan 在 1992 年 提出 的 原始 M5 模型 树 算法 的 一 个 改进 。 


关于 M5' 算法 的 更 多 信息 ， 请 参考 : Induction of model trees for predicting 
人 一 
.continuous classes, Proceedings of the Poster Papers of the European Conference 
on Machine Learning by Y. Wang and I.H. Witten (1997)。 


M5' 算法 在 R 中 通过 RWeka 包 和 M5P() 困 数 可 以 得 到 。 该 函数 的 语法 如 下 表 所 示 。 如 
果 你 尚未 安装 RWeka 添加 包 ， 请 确保 安装 该 添加 包 。 由 于 其 依赖 于 Java， 所 以 安装 的 说 明 
都 包含 在 第 1 章 中 。 


建立 模型 : 

m <- Ms5P(dv ~ iv, data = mydata ) 

e dv: 是 mydata 数据 框 中 需要 建 模 的 因 变量 

e iv: 为 一 个 R 公式， 用 来 指定 mydata 数据 框 中 被 用 于 模型 的 自 变量 
e data: 为 包含 变量 dv 和 变量 iv 的 数据 框 

该 函数 返回 一 个 模型 树 对 象 ， 该 对 象 能 够 用 于 预测 

进行 预测 : 

p <- Przedict(m，test) 

e m: 由 函数 M5P() 训练 的 一 个 模型 

e test: 一 个 包含 测试 数据 的 数据 框 ， 该 数据 框 和 用 来 建立 模型 的 训练 数据 有 同样 的 特征 
该 函数 返回 一 个 含有 预测 值 的 数值 向 量 。 

例子 : 


wine model <- M5P(quality ~ alcohol + sulfates, data = wine train) 
wine predictions <- predict (wine model, wine test) 


我 们 将 使 用 和 回归 树 基本 相同 的 语法 来 拟 合 模型 树 : 
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> library (RWeka) 

> m.m5p <- M5P(quality ~ ., data = wine train) 

树 本 身 可 以 通过 输入 它 的 名 称 来 查看 。 在 这 种 情况 下 ， 树 是 很 大 的 ， 只 显示 了 输出 的 前 
几 行 : 

> m.m5p 

M5 pruned model tree: 

(using smoothed linear models) 

alcohol <= 10.85 : 

| volatile.acidity <= 0.238 : 

| | fixed.acidity <= 6.85 : LM1 (406/66.024%) 


| | fixed.acidity > 6.85 : 
| | | free.sulfur.dioxide <= 24.5 : LM2 (113/87.697%) 


你 将 会 注意 到 分 割 与 我 们 前 面 建立 的 回归 树 很 相似 。 酒 精 (alcohol) 是 最 重要 的 变量 ， 
紧 接 着 是 挥发 性 酸 ( volatile acidity) 和 游离 二 氧化 硫 ( free sulfur dioxide)。 然 而 ， 一 个 关 
键 的 区 别 在 于 节点 不 是 以 一 个 数值 预测 终止 ， 而 是 以 一 个 线性 模型 终止 (这 里 表示 为 LM1 
和 ZLM2 )。 

线性 模型 本 身 显示 在 输出 的 后 面 。 例 如 ，LMI 模型 如 下 所 示 。 这 些 值 完全 可 以 像 我 们 在 
本 章 前 面 建立 的 多 元 回归 模型 一 样 解释 ， 每 一 个 数字 都 是 相关 的 特征 对 于 预测 的 葡萄 酒 质量 
的 净 影 响 (效应 )。 对 于 固定 酸度 的 系数 0 .266 意味 着 每 增加 一 个 单位 的 酸度 ， 葡 萄 酒 的 质 
量 预计 会 增加 0 .266。 


LM num: 1 
quality = 

0.266 * fixed.acidity 

- 2.3082 * volatile.acidity 
.012 * citric.acid 
.0421 * residual.sugar 
.1126 * chlorides 
* free.sulfur.dioxide 
0.0015 * total.sulfur.dioxide 
- 109.8813 * density 
+ 0.035 * pH 
+ 1.4122 * sulphates 
未 


0 
0 
0 
0 


1 十 填 二 1 


0.0046 * alcohol 
32 


值得 注意 的 是 ， 估 计 的 影响 只 适用 于 到 达 该 节点 的 葡萄 酒 案 例 。 在 这 个 模型 树 中 一 共 建 
立 了 36 个 线性 模型 ， 每 一 个 模型 对 于 固定 酸度 和 其 他 10 个 特征 的 影响 都 有 不 同 的 估计 。 

关于 模型 对 训练 数据 拟 合 程度 好 坏 的 统计 量 ，summary () 函数 可 应 用 于 M5P 模型 。 然 
而 ， 请 记 住 ， 因 为 这 些 统计 量 是 基于 训练 数据 ， 所 以 它们 只 能 作为 一 个 粗略 的 诊断 使 用 : 


> summary (m.m5P) 


Hl 
Il 
tn 
和 
也 
四 
二 
ll 
外 
ll 


Correlation coefficient 0.6666 


wwaibbt.com DO0OOOODOODOO 


144 %s*， 机 器 学 习 与 R 语 言 


Mean absolute error 全 2551 
Root mean squared error 0.6614 
Relative absolute error 76.4921 多 
Root relative squared error 74.6259 % 
Total Number of Instances 3750 


相反 ,我们 将 观察 基于 未 知 的 测试 数据 模型 的 性 能 有 多 好 。predict () 函数 为 我 们 获取 
了 一 个 预测 值 向 量 : 

> p.m5p <- predict (m.m5p, wine test) 

似乎 模型 树 的 预测 值 范 围 比 回归 树 更 广 : 


> summary (p.m5Sp) 


Min. lst Qu. Median Mean 3rd Qu. Max . 
4.389 5.430 5.863 5.874 5 .305 7.437 
相关 性 似乎 也 有 大 幅 提 高 : 


> cor(p.mSsp, wine test$quality) 
[1] 0.6272973 


此 外 ， 该 模型 的 平均 绝对 误差 略 有 改善 : 


> MAE (wine test$quality, p.m5p) 
[1] 0.5463023 


尽管 我 们 没有 以 很 大 的 提高 来 超越 回归 树 ， 但 是 我 们 超越 了 由 Cortez 发 表 的 神经 网 络 模 
型 的 性 能 ， 而 且 我 们 也 更 接近 了 由 支持 向 量 机 模型 发 布 的 0.45 的 平均 绝对 误差 值 ， 同 时 还 使 
用 了 一 个 更 简单 的 学 习 方法 。 

不 足 为 奇 的 是 ， 我 们 已 经 证 实 了 预测 葡萄 酒 的 质量 是 一 个 困难 的 问题 ， 毕 

< 竞 品 酒 本 质 上 是 主观 的 。 如 果 你 想 要 更 多 的 实践 ， 那 么 你 可 以 在 阅读 第 11 

全 证， 和 四 下 四 同 十， 因为 多 11 来 丰 纪委 多 的 技巧， 可 能 委 囊 来 更 妈 抽 
结果 。 


6.5 总 结 


在 本 章 中 ,呈现 了 对 数值 型 数据 建 模 的 两 种 方法 : 第 一 种 方法 ， 线 性 回归 ， 涉 及 用 直线 
拟 合 数 据 ; 第 二 种 方法 ， 使 用 决策 树 进行 数值 预测 。 后 者 有 两 种 形式 : 一 是 回归 树 ， 它 使 用 
位 于 叶 节 点 的 案例 均值 进行 数值 预测 ; 二 是 模型 树 ， 它 以 一 种 混合 的 方法 在 每 一 个 叶 节 点 建 
立 一 个 回归 模型 ， 该 混合 方法 在 某 些 方面 是 两 个 模型 中 最 好 的 。 

采用 线性 回归 模型 为 不 同 阶层 的 人 群 计算 了 预期 医疗 费用 。 因 为 特征 和 变量 之 间 的 关 
系 可 以 用 所 估计 的 回归 模型 描述 ， 所 以 我 们 能 够 确认 某 些 人 口 统计 数据 ， 比 如 吸烟 者 和 肥胖 
者 ， 可 能 需要 以 要 价 更 高 的 保险 率 来 支付 高 于 平均 水 平 的 医疗 费用 。 
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回归 树 和 模型 树 被 用 来 根据 葡萄 酒 可 测量 特性 ， 对 葡萄 酒 的 主观 质量 进行 建 模 。 在 此 过 
程 中 ， 我 们 学 习 了 回归 树 如 何 提供 一 种 简单 的 方法 来 解释 特征 和 数值 结果 之 间 的 关系 ,但 是 
更 复杂 的 模型 树 可 能 会 更 精确 。 此 外 ， 在 上 述 过 程 中 ,我们 也 学 到 了 几 种 方法 来 估计 数值 模 
型 的 性 能 。 

本 章 介 绍 的 机 器 学 习 方 法 让 我 们 对 于 输入 和 输出 之 间 的 关系 有 一 个 清晰 的 理解 ， 与 本 章 
形成 鲜明 对 比 的 是 ， 下 一 章 介绍 的 方法 产生 近乎 无 法 理解 的 模型 ， 但 优势 是 它们 有 极其 强大 
的 技巧 (最 强大 的 分 类 器 之 一 )， 它 们 既 可 以 应 用 于 分 类 预测 问题 ， 也 可 以 应 用 于 数值 预测 
问题 。 


wwaibbt.com DODDODDDODOD 


CWyxrz 7: 第 7 章 


黑箱 方法 一 一 神经 网 络 和 支持 向 量 机 


已 故 科幻 作家 阿 瑟 :克拉克 (Arthur C. Clarke) 曾经 写 道 :“ 任 何 足 够 先进 的 技术 都 是 与 
魔法 难以 区 分 的 。 ”本章 介 绍 两 个 机 器 学 习 方 法 ， 同 样 ， 它 们 可 能 第 一 眼看 上 去 似乎 是 魔法 。 
作为 最 强大 的 机 器 学 习 算 法 中 的 两 个 ， 它 们 的 应 用 遍及 许多 领域 中 的 任务 。 然 而 ， 它 们 的 内 
部 运作 却 很 难 理解 。 

在 工程 中 ， 这 些 称 为 黑箱 ( black box) 过 程 ， 因 为 将 输入 转换 成 输出 的 机 制 是 通过 一 个 
黑 盒 子 来 模糊 处 理 的 。 隐 汲 难 懂 (不 透明 ) 的 原因 有 诸多 方面 ， 例 如 ， 封 闭 源码 软件 的 黑箱 
故意 隐瞒 专 有 算法 ;制作 香肠 的 黑箱 有 意 模 糊 化 (但 好 吃 ); 政治 立法 的 黑箱 植 根 于 官 做 的 做 
事 过 程 。 在 机 器 学 习 的 情况 下 ， 黑 箱 是 因为 潜在 的 模型 基于 复杂 的 数学 系统 ， 而 且 结 果 难 以 
解释 

尽管 黑箱 模型 的 解释 是 不 可 行 的 ， 但 是 盲目 应 用 这 些 方法 是 有 危险 的 。 因 此 ， 在 本 章 
中 ， 我 们 将 窥探 一 些 算 法 背后 的 知识 ， 并 调查 涉及 拟 合 这 些 模 型 的 统计 过 程 。 你 将 会 学 到 : 

口 为 了 模拟 任意 函数 (功能 )， 神 经 网 络 借用 了 人 们 理解 人 脑 所 应 用 的 一 些 概念 

口 支持 向 量 机 使 用 多 维 曲面 来 定义 特征 和 结果 的 关系 。 

口 尽管 它们 很 复杂 ,但 是 这 些 模型 可 以 很 容易 地 应 用 到 现实 世界 的 问题 中 ， 比 如 模拟 混 

凝 土 的 强度 或 者 阅读 印刷 文字 。 

运气 好 的 话 ， 你 将 会 意识 到 ， 在 统计 中 ， 你 并 不 需要 具备 黑 带 资格 来 应 对 黑箱 机 器 学 习 

没有 必要 被 吓 到 ! 





方法 


7.1 理解 神经 网 络 
人 工 神经 网 络 ( Artificial Neural Network，ANN ) 对 一 组 输入 信号 和 一 组 输出 信和 号 之 间 的 
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关系 进行 建 模 ， 使 用 的 模型 来 源 于 人 类 大 脑 对 来 自 感觉 输入 的 刺激 是 如 何 反 应 的 理解 。 就 像 
大 脑 使 用 一 个 称 为 神经 元 ( neuron) 的 相互 连接 的 细胞 网 络 来 创建 一 个 巨大 的 并 行 处 理 带 一 
样 ， 人 工 神经 网 络 使 用 人 工 神经 元 或 者 节点 (node) 的 网 络 来 解决 学 习 问 题 。 

人 脑 大 约 由 850 亿 个 神经 元 构成 ， 产生 了 一 个 能 够 存储 巨 量 知识 的 网 络 。 正 如 你 可 能 期 
望 的 ， 这 使 得 其 他 生物 的 大 脑 相 形 见 纳 。 例 如 ， 一 只 猫 大 约 有 10 亿 个 神经 元 ， 一 只 老鼠 大 
约 有 7500 万 个 神经 元 ， 一 只 蜂 螂 大 约 只 有 100 万 个 神经 元 。 相 比 之 下 ,许多 人 工 神经 网 络 
包含 的 神经 元 要 少 得 多 ， 通 常 只 有 几 百 个 ， 所 以 我 们 在 不 久 的 将 来 随时 创建 一 个 人 工大 脑 是 
没有 危险 的 一 一 即使 是 一 只 具有 10 万 个 神经 元 的 果 蝇 也 远 远 超过 了 目前 最 先进 的 人 工 神经 
网 络 





虽然 神经 网 络 可 能 不 适合 用 来 完全 模拟 一 只 蜂 旺 的 大 脑 ， 但 是 它 可 能 提供 一 
个 关于 暗 贱 行为 的 充分 的 探索 模型 ， 比 如 在 一 个 算法 中 ， 它 可 以 模拟 当 一 只 
<、 暗 星 被 发 现时 ， 它 是 如 何 逃 离 的 。 如果 一 只 蜂 晴 的 行为 是 令 人 信服 的 ， 那 么 
el 它 的 大 脑 是 如 何 运作 的 重要 吗 ? 这 个 问题 是 具有 争议 的 图 灵 测 试 (Turing test) 
的 基础 ， 即 如 果 一 个 人 不 能 将 机 器 的 行为 与 一 种 生物 的 行为 区 分 开 来 ， 那 么 
图 灵 测 试 将 该 机 器 划分 为 智能 类 


基本 的 人 工 神 经 网 络 的 历史 已 超过 50 年 ， 它 们 通过 模拟 大 脑 的 方法 来 解决 问题 。 最初， 
这 涉及 学 习 简 单 的 函数 ， 如 逻辑 AND 函数 或 者 逻辑 OR。 这 些 早 期 的 练习 主要 用 于 构建 生物 
大 脑 可 能 会 如 何 起 作用 的 模型 。 然 而 ， 近 年 来 ， 随 着 计算 机 的 功能 变 得 越 来 越 强 大 ， 人 工 神 
经 网 络 的 复杂 性 也 同样 增加 了 ， 使 得 它们 现在 经 常 应 用 于 更 实际 的 问题 ， 比 如 : 

口 如 那些 使 用 语音 信箱 转 接 服务 和 邮政 信件 分 拣 机 的 语音 和 字迹 识别 程序 。 

口 如 一 座 办 公 楼 的 环境 控制 或 者 自动 驾驶 的 汽车 和 无 人 机 的 智能 设备 的 自动 化 。 

口 天 气 和 气候 模式 ， 拉 伸 强 度 ， 流 体 动 力学 ， 许 多 其 他 科学 ， 社 会 和 经 济 现 象 的 复杂 

模型 。 

从 广义 上 讲 ， 人 工 神经 网 络 是 可 以 应 用 于 几乎 所 有 学 习 任务 的 多 功能 学 习 方法 : 分 类 、 

数值 预测 ， 甚 至 无 监督 的 模式 识别 。 


不 管 值 得 与 否 ， 人 工 神 经 网 络 学 习 方法 经 常 在 媒体 上 大 张 旗 鼓 地 报道 。 例 如 ， 
一 个 由 谷歌 开发 的 “人 工大 脑 ” 因 为 其 具有 能 够 识别 You Tube (世界 上 最 大 
的 视频 分 享 网 站 ) 上 猫 的 视频 的 能 力 而 被 吹捧 。 这 样 的 炒作 与 人 工 神 经 网 络 
的 任何 独特 性 关系 很 小 ， 却 与 人 工 神经 网 络 很 有 魅力 的 事实 有 很 大 关系 ， 因 
为 它们 与 生物 的 大 脑 很 相似 。 


人 工 神 经 网 络 最 好 应 用 于 下 列 问 题 : 输入 数据 和 输出 数据 都 很 好 理解 或 者 至 少 相当 简单 ， 
但 其 涉及 输入 到 输出 的 过 程 是 极其 复杂 的 。 作 为 一 种 黑箱 方法 ， 对 于 这 些 类 型 的 黑箱 问题 ， 
它们 运行 得 很 好 


AM 
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7.1.1 从 生物 神经 元 到 人 工 神经 元 

由 于 人 工 神 经 网 络 故 意 设 计 为 人 脑 活动 的 概念 模型 ， 所 以 首先 理解 生物 神经 元 如 何 发 
挥 作 用 是 有 帮助 的 。 如 下 图 所 示 ， 细 胞 的 树 突 轴 突 终端 
(dendrite) 通过 一 个 允许 神经 冲动 根据 其 相对 重 
要 性 或 者 频率 加 权 的 生化 过 程 来 接受 输入 的 信 
号 。 由 于 细胞 体 开始 积累 输入 信号 ， 所 以 当 达 到 
一 个 阀 值 之 后 ， 细 胞 便 会 充满 活力 击破 ， 然 后 输 
出 信号 通过 一 个 电化 过 程 传送 到 轴 突 (axon)。 在 
轴 突 终 末 ， 该 电信 号 会 再 次 被 处 理 为 一 种 化 学 信 
号 ， 穿 过 称 为 突 触 (synapse) 的 一 个 微小 间隙 传 
弟 到 相 邻 的 神经 元 。 

一 个 单一 的 人 工 神经 元 模型 可 以 用 非常 类 似 于 生物 
模型 的 术语 来 理解 。 如 下 图 所 示 ， 一 个 有 向 网 络 图 定义 
了 树 突 接收 的 输入 信和 号 (变量 x) 和 输出 信号 (变量 y) 
之 间 的 关系 。 与 生物 神经 元 一 样 ， 每 一 个 树 突 的 信和 号 都 
根据 其 重要 性 被 加 权 (w 值 ) 一 一 现在 先 忽 略 如 何 确 定 
这 些 权 重 。 输 入 信号 由 细胞 体 求 和 ， 然 后 该 信号 根据 一 
个 用 表示 的 激活 函数 (activation function ) 来 传递 。 

一 个 典型 的 及 n 个 输入 树 突 的 神经 元 可 以 用 下 面 的 
公式 表示 。 权 重 w 可 以 控制 n 个 输入 (x) 中 的 每 个 输入 对 输入 信号 之 和 所 做 的 贡献 的 大 小 。 
激活 函数 .ftx) 使 用 净 总 和 ， 结 果 信号 y(x) 就 是 输出 轴 突 。 








就 像 使 用 积木 那样 ， 神 经 网 络 应 用 这 种 方式 定义 的 神经 元 来 构建 复杂 的 数据 模型 。 虽 然 
有 很 多 种 不 同 的 神经 网 络 ， 但 是 每 一 种 都 可 以 由 下 面 的 特征 来 定义 : 

口 激活 函数 (activation function)， 将 神经 元 的 净 输 入 信和 号 转换 成 单一 的 输出 信号， 以 便 
进一步 在 网 络 中 传播 。 

口 网 络 拓扑 (network topology) (或 结构 )， 描 述 了 模型 中 神经 元 的 数量 以 及 层 数 和 它们 
连接 的 方式 。 

口 训练 算法 ( training algorithm)， 指 定 如 何 设置 连接 权重 ,以便 抑 制 或 者 增加 神经 元 在 
输入 信号 中 的 比重 。 

让 我 们 来 看 看 上 述 每 一 种 特征 的 不 同情 况 ， 看 看 如 何 用 它们 来 构建 典型 的 神经 网 络 模型 。 


7.1.2 “激活 函数 
激活 函数 是 人 工 神经 元 处 理 信 息 并 将 信息 传递 到 整个 网 络 的 机 制 。 正 如 人 工 神经 元 是 以 
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生物 中 的 神经 元 为 模型 ， 激 活 函 数 也 是 以 生物 神经 元 的 机 制 为 模型 。 

在 生物 世界 中 ,激活 函数 可 以 想象 为 一 个 过 程 ， 涉 及 对 总 的 输入 信号 求 和 ， 和 确定 其 是 
否 满足 激活 阅 值 。 如 果 满 足 ， 神 经 元 传递 信号 ; 否则 ， 它 不 执行 任何 操作 。 在 人 工 神 经 网 络 
术语 中 ， 这 称 为 阐 值 激活 函数 ( threshold activation function)， 因 为 它 仅 在 一 个 指定 的 输入 阅 
值 达到 后 ， 才 产生 一 个 输出 信和 号。 

下 图 显示 了 一 个 典型 的 阔 值 函数 。 在 这 种 情况 下 ， 当 输入 信号 的 总 和 至 少 为 零 时 ， 神 经 


输出 信号 





输入 信号 之 和 

虽然 该 激活 函数 因为 其 与 生物 学 的 相似 之 处 很 有 趣 ， 但 是 它 很 少 用 于 人 工 神经 网 络 中 。 
从 生物 化 学 的 局 限 中 解脱 出 来 ， 根 据 它们 解释 令 人 满意 的 数学 特征 的 能 力 和 对 数据 之 间 的 关 
系 建立 模型 的 能 力 来 选择 人 工 神 经 网 络 激活 函数 。 

或 许 最 常用 的 方法 是 下 图 所 示 的 S 形 激活 函数 ( sigmoid activation function) (特别 是 逻 
辑 S 形 ，the logistic sigmoid)， 其 中 e 是 自然 对 数 的 底 ( 约 为 2.72 )。 尽 管 它 与 阔 值 激活 函数 
有 类 似 的 步骤 或 者 S 的 形状 ， 但 是 输出 信号 不 再 是 二 元 的 ， 输 出 值 可 以 落 在 0 ~ 1 的 任何 地 
方 。 此 外 ,该 $ 形 激活 函数 是 可 微 的 ， 这 意味 着 它 很 有 可 能 计算 出 遍及 整个 输入 范围 的 导 
数 。 正 如 你 后 面 将 要 学 习 的 ， 该 特征 对 于 创建 高 效 的 人 工 神 经 网 络 优化 算法 是 至 关 重 要 的 。 





输入 信号 之 和 
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虽然 该 S 形 激 活 函 数 也 许 是 最 常用 的 激活 函数 ， 并 且 通 常 在 默认 情况 下 使 用 ， 但 是 有 些 
神经 网 络 允 许 选择 其 他 的 激活 函数 。 这 样 的 激活 函数 的 选择 如 下 图 所 示 。 


饱和 线性 激活 函数 
过 
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构成 这 些 激 活 函 数 之 间 差 异 的 主要 细节 就 是 输出 信号 的 范围 不 同 。 通 常情 况 下 ， 输 出 信 
号 范围 是 (0,，1)、(-1, +1) 或 者 (- ,+m) 的 一 种 。 激 活 函 数 的 选择 与 具体 的 神经 网 
络 有 关 ， 它 可 能 更 适合 拟 合 某 些 类 型 的 数据 ， 人 允许 构 建 专门 的 神经 网 络 。 例 如 ， 线 性 激活 函 
数 产 生 非 常 类 似 于 线性 回归 模型 的 神经 网 络 ， 而 高 斯 激活 函数 产生 称 为 径 向 基 范 数 ( Radial 
Basis Function，RBF) 网 络 模型 。 
重要 的 是 要 认识 到 ， 对 于 许多 激活 函数 ， 影 响 输 出 信号 的 输入 值 范围 是 相对 较 窄 的。 例 
如 , 在 S 形 激活 函数 情况 下 ， 对 于 一 个 低 于 -5 或 者 超过 +5 的 输入 信和 号， 输出 信号 始终 为 0 
或 者 1。 这 种 方式 的 信和 号 压缩 会 导致 一 个 饱和 信号 位 于 非常 动态 化 的 输入 的 最 高 端 或 者 最 低 
端 ， 就 像 把 一 把 吉他 的 扩 音 需 调 到 很 高 以 致 由 于 削减 声波 的 峰值 而 使 声音 失真 。 因 为 本 质 上 
这 是 将 输入 值 压缩 到 一 个 较 小 的 输出 范围 ， 所 以 这 样 的 激活 函数 ( 像 S 形 ) 有 时 候 称 为 压缩 
函数 (squashing function )。 
压缩 问题 的 解决 方法 就 是 转换 所 有 的 神经 网 络 输入 ， 使 特征 值 落 在 0 附近 的 小 范围 内 。 
通常 情况 下 ， 这 可 以 通过 标准 化 或 者 规范 化 完成 。 通 过 限制 输入 值 ， 激 活 函 数 将 对 整个 范围 
采取 行动 ， 从 而 预防 取 值 尺度 很 大 的 特征 (例如 ， 收 入 ) 支配 取 值 尺度 较 小 的 特征 (例如 ， 
家 庭 的 孩子 个 数 )。 男 一 个 好 处 是 ， 这 些 模 型 也 可 能 更 快 地 训练 ， 因 为 这 些 算法 可 以 通过 输 
入 值 的 可 操作 范围 更 快 地 迁 代 。 
网 虽然 理论 上 一 个 神经 网 络 可 以 经 过 多 次 迁 代 来 调整 它 的 权重 以 适应 非常 动态 
以 化 的 特征 ， 但 是 在 极端 情况 下 ,许多 算法 将 在 此 发 生 之 前 就 已 经 停止 了 迭代 。 
如 果 你 的 模型 预测 是 没有 意义 的 ， 请 检查 你 是 否 已 经 正确 标准 化 了 输入 数据 。 
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7.1.3 ”网 络 拓扑 

神经 网 络 的 学 习 能 力 来 源 于 它 的 拓扑 结构 ( topology), 或 者 相互 连接 的 神经 元 的 模式 与 
结构 。 虽 然 有 无 数 的 网 络 结构 形式 ， 但 是 它们 可 以 通过 3 个 关键 特征 来 区 分 : 

口 层 的 数目 。 

口 网 络 中 的 信息 是 否 允 许 向 后 传播 。 

口 网 络 中 每 一 层 内 的 节点 数 。 

拓扑 结构 决定 了 可 以 通过 网 络 进行 学 习 任 务 的 复杂 性 。 一 般 来 说 ， 更 大 、 更 复杂 的 网 络 
能 够 识别 更 微妙 的 模式 及 更 复杂 的 决策 边界 。 然 而 ， 神 经 网 络 的 效能 不 仅 是 一 个 网 络 规模 的 
函数 ， 也 取决 于 其 构成 元 素 的 组 织 方式 。 


1. 层 的 数目 


为 了 定义 拓扑 ， 需要 一 个 术语 来 区 分 位 于 网 络 中 不 同位 置 的 人 工 神经 元 。 下 图 显示 了 一 
个 非常 简单 网 络 的 拓扑 结构 。 称 为 输入 节点 ( Input Node) 的 一 组 神经 元 直接 从 输入 的 数据 接 
收 未 经 处 理 的 信号 ， 然 后 每 个 输入 节点 负责 处 理 数据 集中 一 个 单一 的 特征 ， 该 特征 的 值 将 由 节 
点 的 激活 函数 进行 转换 。 从 输入 节点 产生 的 信号 由 输出 节点 ( Output Node) 接收 ,输出 节点 使 
用 它 自 己 的 激活 函数 来 生成 最 终 的 预测 (这 里 记 为 P)。 

输入 节点 和 输出 节点 安排 在 称 为 层 (layer) 的 组 
中 。 因 为 输入 节点 处 理 正确 接收 的 输入 数据 ， 所 以 该 口 
网 络 只 有 一 组 连接 权重 (这 里 标记 为 w1、w2 和 w3 )。 
因此 它 称 为 单 层 网 络 (single-layer network)。 单 层 网 络 
可 以 用 于 基本 的 模式 分 类 ， 特 别 是 可 用 于 能 够 线性 分 
割 的 模式 ,但 大 多 数 的 学 习 任 务 需要 更 复杂 的 网 络 。 输入 节点 

正如 你 可 能 所 期 望 的 ， 一 种 明显 的 创建 更 复杂 网 
络 的 方法 是 通过 添加 额外 的 层 。 就 像 这 里 所 描绘 的 ， 多 层 网 络 ( multilayer network) 添加 了 
一 个 或 者 更 多 的 隐藏 层 (hidden layer)， 它 们 在 信号 到 达 输 出 节点 之 前 处 理 来 自 输入 节点 的 信 
号 。 大 多 数 多 层 网 络 被 完全 连接 ( fully connected)， 这 意味 着 前 一 层 中 的 每 个 节点 都 连接 到 
下 一 层 中 的 每 个 节点 ， 但 这 不 是 必需 的 。 
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2. 信息 传播 的 方向 

你 可 能 已 经 注意 到 ， 在 前 面 的 例子 中 ， 箭 头 用 来 指示 信号 只 在 一 个 方向 上 传播 。 如 果 网 
络 中 的 输入 信和 号 在 一 个 方向 上 从 一 个 节点 到 另 一 个 节点 连续 地 传送 ， 直 到 到 达 输 出 层 ， 那 么 
这 样 的 网 络 称 为 前 馈 网 络 (feedforward network ) 。 

虽然 信息 流 有 限制 ， 但 前 馈 网 络 提供 了 大 量 令 人 吃惊 的 灵活 性 。 例 如 ， 层 数 和 每 一 层 的 
节点 数 都 可 以 改变 ， 多 个 结果 可 以 同时 进行 建 模 ， 或 者 可 以 应 用 多 个 隐藏 层 (这 种 做 法 有 时 
称 为 深度 学 习 (deep learning))。 

多 层 输 出 节点 多 层 隐 藏 节点 





相 比 之 下 ， 递 归 网 络 ( recurrent network) (或 者 反馈 网 络 ，feedback network) 允许 信号 使 
用 循环 在 两 个 方向 上 传播 。 这 个 性 质 更 贴近 地 模拟 
了 生物 神经 网 络 的 工作 原理 ， 它 使 得 极其 复杂 的 模 
式 可 以 被 学 习 。 增 加 一 个 短期 记忆 (下 图 中 标记 为 延 
迟 ( Delay) ) 会 给 递归 网 络 增加 巨大 的 功效 。 值 得 注 
意 的 是 ， 这 包含 了 能 够 理解 经 过 一 段 时 间 的 事件 序 
列 的 能 力 。 因 此 ， 递 归 网 络 可 用 于 股市 预测 (stock 
market prediction)、 语 言 理 解 ( speech comprehension ) 
和 天 气 预报 ( weather forecasting )。 一 个 简单 递归 网 
络 的 描述 如 右 图 所 示 。 

尽管 递归 网 络 很 有 潜力 ,但 是 它们 在 很 大 程度 上 仍然 是 理论 上 的 ， 在 实践 中 很 少 使 用 。 
另 一 方面 ， 前 馈 网 络 已 经 广泛 地 应 用 于 现实 世界 的 问题 中 。 实 际 上 ， 多 层 前 馈 网 络 (有 了 时 称 
为 多 层 感 知 器 ( Multilayer Perceptron，MLP)) 是 人 工 神 经 网 络 拓扑 结构 的 事实 标准 。 如 果 有 
人 正在 拟 合 一 个 神经 网 络 而 无 需 额外 的 说 明 ， 那 么 他 们 最 有 可 能 指 的 是 多 层 前 馈 网 络 。 





隐藏 节点 


输入 节点 


3. 每 一 层 的 节点 数 


除了 层 数 和 信息 传播 方向 的 变化 外 ， 神 经 网 络 同样 可 以 改变 每 一 层 的 节点 数 ， 从 而 导致 
复杂 性 发 生 改 变 。 输 入 节点 的 个 数 由 输入 数据 特征 的 数量 预先 确定 。 类 似 地 ， 输 出 节点 的 个 
数 由 需要 进行 建 模 的 结果 或 者 结果 中 的 分 类 水 平 数 预先 确定 。 然 而 ， 隐 藏 节点 的 个 数 留 给 使 
用 者 在 训练 模型 之 前 确定 。 
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不 幸 的 是 ， 没 有 可 信 的 规则 来 确定 隐藏 层 中 神经 元 的 个 数 。 合 适 的 数目 取决 于 输入 节点 
的 个 数 、 训 练 数据 的 数量 、 噪 声 数据 的 数量 ， 以 及 许多 其 他 因素 之 间 的 学 习 任 务 的 复杂 性 。 

一 般 情况 下 ， 更 复杂 的 网 络 拓扑 结构 具有 更 多 数目 的 网 络 连 接 ， 人 允许 更 复杂 问题 的 学 
习 。 较 多 数量 的 神经 元 将 产生 反映 训练 数据 更 严格 的 模型 ,但 有 过 度 拟 合 的 风险 ， 而 且 它 可 
能 不 能 充分 地 推广 到 未 来 的 数据 。 此 外 ， 大 型 神经 网 络 计 算 量 也 很 大 ， 而 且 训 练 缓慢 。 

最 好 的 做 法 就 是 基于 验证 数据 集 ， 使 用 较 少 的 节点 产生 适用 (足够 ) 的 性 能 。 在 大 多 数 
情况 下 ， 即 使 只 有 少量 的 隐藏 节点 (往往 少 到 屈指 可 数 )， 但 神经 网 络 却 可 以 提供 惊人 (巨大 ) 
的 学 习 能 力 。 

”已 经 证 明 ， 具 有 至 少 一 个 充分 多 神经 元 隐藏 层 的 神经 网 络 是 一 种 通用 函数 逼 

“1 近 器 ( universal function approximator)。 从 本 质 上 讲 ， 这 意味 着 这 样 的 一 个 网 

络 可 以 用 来 以 任意 精度 逼近 有 界 区 间 上 的 任意 连续 函数 。 


7.1.4 ”用 后 向 传播 训练 神经 网 络 
网 络 拓 扑 结构 是 一 块 空白 石板 ， 通 过 它 本 身 并 没有 学 到 任何 东西 。 就 像 一 个 刚 出 生 的 孩 
子 ， 它 必须 用 经 验 进行 训练 。 当 神经 网 络 处 理 输入 数据 时 ， 神 经 元 之 间 的 连接 被 加 强 或 者 减 
弱 ， 类 似 于 一 个 婴儿 在 体验 外 界 环境 时 ， 他 大 脑 的 发 育 过 程 。 网 络 的 连接 权重 反映 了 观察 到 
的 随时 间 变 化 的 模式 。 
通过 调整 连接 权重 训练 神经 网 络 模型 的 计算 量 非常 大 。 因 此 ， 尽 管 人 工 神 经 网 络 之 前 
已 经 被 研究 了 几 十 年 ， 但 是 很 少将 它们 应 用 到 真实 世界 的 学 习 任 务 中 ， 直 到 20 世纪 80 年 代 
中 后 期 ， 一 种 有 效 的 训练 人 工 神 经 网 络 的 方法 被 发 现 。 该 算法 使 用 了 一 种 后 向 传播 误差 的 策 
略 ， 简 称 为 后 向 传播 (backpropagation ) 。 
有 趣 的 是 ， 同 时 期 的 几 个 研究 团队 相互 独立 地 发 现 了 后 向 传播 算法 。 关 于 
人 后 向 传播 的 开创 性 论文 无 疑 是 : Learning representations by back-propagating 
全 errors, Nature Vol. 323, pp. 533-566, by D.E. Rumelhart, G.E. Hinton, and R.J. 
Williams (1986)。 


虽然 相对 于 许多 其 他 的 机 器 学 习 算法 ， 后 向 传播 算法 还 是 出 了 名 的 慢 ， 但 是 该 方法 使 得 
人 们 对 于 人 工 神 经 网 络 的 兴趣 再 度 升 起 。 所 以 ， 现 在 使 用 后 向 传播 算法 的 多 层 前 馈 网 络 在 数 
据 挖掘 领域 是 常见 的 。 这 类 模型 具有 如 下 的 优点 和 缺点 。 












。 计算 量 大 ， 训 练 缓慢 ， 特 别 是 在 网 络 拓扑 结构 复杂 的 
情况 下 

。 很 容易 过 度 拟 合 或 者 不 充分 拟 合 训练 数据 

e 如 果 不 是 不 可 能 ， 复 杂 黑 箱 模型 的 结果 很 难 解释 


。 适用 于 分 类 和 数值 预测 问题 
。 属于 最 精确 的 建 模 方法 
ee 对 数据 的 基本 关系 几乎 不 需要 做 出 假设 
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在 其 最 一 般 的 形式 中 ， 后 向 传播 算法 通过 两 个 过 程 的 多 次 循环 进行 迭代 。 该 算法 的 每 一 
次 和 迭代 称 为 一 个 新 纪元 (epoch ) 。 因 为 网 络 不 包含 先 验 的 (a priori) (已 有 的 ) 知识 ， 所 以 通 
常 在 开始 之 前 随机 设 定 权 重 。 然 后 ,算法 通过 过 程 循环 ， 直 到 达到 一 个 停止 准则 。 该 循环 包 
括 : 
口 在 前 向 阶段 ( forward phase) 中 ， 神 经 元 在 从 输入 层 到 输出 层 的 序列 中 被 激活 ， 沿 途 
应 用 每 一 个 神经 元 的 权重 和 激活 函数 ,一 旦 到 达 最 后 一 层 ， 就 产生 一 个 输出 信和 号。 

口 在 后 向 阶段 (backward phase) 中 ， 由 前 向 阶段 产生 的 网 络 输出 信号 与 训练 数据 中 的 真 
实 目标 值 进行 比较 ， 网 络 的 输出 信号 与 真实 目标 值 之 间 的 差异 产生 的 误差 在 网 络 中 向 
后 传播 ， 从 而 来 修正 神经 元 之 间 的 连接 权重 ， 并 减少 将 来 产生 的 误差 。 

随 着 时 间 的 推移 ， 网 络 使 用 向 后 发 送 的 信息 来 减少 网 络 的 总 误差 。 然而， 还 有 一 个 问 
题 : 因为 每 个 神经 元 的 输入 和 输出 之 间 的 关系 很 复杂 ， 所 以 该 算法 如 何 确 定 一 个 权重 需要 改 
变 多 少 (或 者 是 否 需 要 改变 ) 呢 ? 

回答 这 个 问题 涉及 一 个 称 为 梯度 下 降 法 ( gradient descent) 的 技术 。 从 概念 上 讲 ， 它 的 
运作 方式 类 似 于 一 个 被 困 于 从 林 中 的 探险 者 如 何 找到 一 条 通 向 水 源 的 路 线 。 通 过 研究 地 形 ， 
在 具有 最 大 向 下 斜坡 的 方向 上 不 断 地 走 ， 他 很 有 可 能 最 终 到 达 最 低谷 ， 而 这 很 可 能 是 一 条 
河床 。 

在 一 个 类 似 的 过 程 中 ， 后 向 传播 算法 利用 每 一 个 神经 元 的 激活 函数 的 导数 来 确定 每 一 个 
输入 权重 方向 上 的 梯度 一 一 因此 ， 有 一 个 可 微 的 激活 函数 很 重要 ， 梯 度 将 会 因为 权重 的 改变 
而 表明 误差 是 如 何 急剧 减少 或 者 增加 的 。 该 算法 将 试图 通过 一 个 称 为 学 习 率 (learning rate) 
的 量 来 改变 权重 以 使 得 误差 最 大 化 地 减 小 。 学 习 率 越 大 ， 算 法 试图 降下 的 梯度 就 越 快 ， 这 可 
以 减少 训练 冒 着 风险 越过 山谷 的 时 间 。 

里 然 这 个 过 程 看 起 来 很 复杂 ， 但 在 实践 中 很 容易 应 用 。 让 我 们 把 对 于 多 层 前 馈 网 络 的 理 
解 应 用 到 现实 世界 的 问题 中 。 


7.2 用 人 工 神 经 网 络 对 混凝土 的 强度 进行 建 模 


在 工程 领域 中 ， 对 建筑 材料 的 性 能 有 精确 的 估计 至 关 重 要 。 这 些 估计 是 必需 的 ， 以 便 制 
定安 全 准则 来 管理 用 于 楼 宇 、 桥 染 和 道路 建设 中 的 材料 。 

估计 混凝土 的 强度 是 一 个 特别 有 趣 的 挑战 。 尽 管 混凝土 几乎 要 用 于 每 一 个 建设 项 目 ， 但 
由 于 它 各 种 成 分 的 使 用 以 复杂 的 方式 相互 作用 ,所 以 它 的 性 能 变化 很 大 。 因 此 ， 很 难 精确 地 
预测 它 最 终 产品 的 强度 。 给 定 一 份 输入 材料 成 分 清单 ， 能 够 可 靠 地 预测 混凝土 强度 的 模型 可 
以 带 来 更 安全 的 建设 行为 。 


7.2.1 第 1 步 收集 数据 
为 了 便于 分 析 ， 使 用 由 ICheng Yeh 捐赠 给 UCI 机 器 学 习 数 据 仓 库 (UCI Machine 
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Learning Data Repository) ( http://archive.ics.uci.edu/ml) 的 关于 混凝土 抗 压 强度 的 数据 。 因 为 
I-Cheng Yeh 发 现 用 神经 网 络 对 这 些 数据 进行 建 模 是 成 功 的 ， 所 以 我 们 将 尝试 使 用 R 中 的 一 
个 简单 的 神经 网 络 模型 来 重复 他 的 工作 。 
关于 I-Cheng Yeh 处 理学 习 任 务 的 更 多 信息 ， 请 参考 : Modeling of strength 
a“ 


~ of high performance concrete using artificial neural networks, Cement and 
Concrete Research, Vol. 28, pp. 1797-1808, by IC Yeh (1998): 


根据 该 网 站 ,混凝土 数据 集 包 含 了 1030 个 混凝土 案例 ，8 个 描述 混合 物 成 分 的 特征 。 这 
些 特征 被 认为 与 最 终 的 抗 压强 度 相 关 ， 并 且 它 们 包含 了 产品 中 使 用 的 水 泥 ( cement)、 矿 渣 
(slag)、 灰 (ash)、 水 (water)、 超 塑 化 剂 (superplasticizer)、 粗 集 料 (coarse aggregate) 和 细 集 
料 (fine aggregate) 的 量 (单位 为 kg/m: )， 还 包括 老化 时 间 (aging time)( 单 位 为 天 )。 


要 理解 这 个 例子 ， 你 需要 从 Packt 出 版 社 的 网 站 上 下 载 concrete.csv 文 
件 ， 并 将 该 文件 保存 到 R 的 工作 目录 中 


7.2.2 第 2 步 一 一 探索 和 准备 数据 
通常 ， 我 们 将 通过 使 用 read .csv() 函数 将 数据 加 载 为 一 个 R 对 象 ， 并 确认 其 符合 预 
期 的 结构 后 ， 开 始 我 们 的 分 析 : 


> Concrete <- read.csv("concrete.csv'") 
> str(concrete) 


'data.frame': 1030 obs. of 9 variables: 

$ cement : num 141 169 250 266 155 ... 

$ slag 5 um 212 .42.2 0 114 183%% Su; 

$ ash num © 124,3 95%7 0 0 on 

$ water : num 204 158 187 228 193 ... 

$ superplastic: num 0 10.8 5.5 0 9.1006.409... 
$ coarseagg : num 972 1081 957 932 1047 ... 

$ fineagg : num 748 796 861 670 697 .. 

$ age : 4nt 28 14 28 28 28 90 7 56: 28 28 ,.%: 
$ strength : num 29.9 23.5 29.2 45.9 18.3 ... 


数据 框 中 的 9 个 变量 对 应 于 数据 集中 的 8 个 特征 和 1 个 结果 ， 虽然 已 经 产生 一 个 很 明显 
的 问题 。 神 经 网 络 的 运行 最 好 是 输入 数据 缩放 到 0 附近 的 狭 窑 范 围 内 ， 但 是 这 里 我 们 所 看 到 
的 数值 范围 大 概 是 从 0 到 1000 多 。 

通常 ， 解 决 这 个 问题 的 方法 是 用 规范 化 或 者 标准 化 函数 来 重新 调整 数据 。 如 果 数 据 服从 
一 个 钟 形 曲线 (如 第 2 章 描述 的 正 态 分 布 )， 那 么 使 用 R 内 置 的 scale () 函数 才 可 能 是 有 意 
义 的 。 另 习 方 面 ， 如 果 数 据 服从 均匀 分 布 或 者 严重 非 正 态 ， 那 么 将 其 标准 化 到 一 个 0 ~ 1 范 
围 可 能 会 更 合适 。 在 这 种 情况 下 ， 我 们 将 使 用 后 者 。 
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在 第 3 章 中 ， 我 们 自 定义 的 normalize() 困 数 为 : 


> normalize <- function(x) { 
return((x - min(x)) / (max(x) - min (x))) 


执行 此 代码 后 ,使 用 lapply () 函数 ,我 们 的 normalize() 责 数 就 可 以 应 用 于 混 凝 
土 数据 框 的 每 一 列 ， 如 下 所 示 : 

> concrete norm <- as.data.frame (lapply (concrete, normalize)) 

为 了 确认 标准 化 确实 运行 了 ， 我们 看 到 最 小 强度 和 最 大 强度 现在 分 别 为 0 和 1: 


> summary (concrete norm$strength) 
Min. lst Qu. Median Mean 3rd Qu. Max . 
0.0000000 0.2663511 0.4000872 0.4171915 0.5457207 1.0000000 


作为 对 比 ， 原 始 的 最 小 值 和 最 大 值 分 别 为 2.33 和 82.6: 


> summary (concrete$strength) 
Min. 1st Qu. Median Mean 3rd Qu. Max . 
2.33000 23.71000 34.44500 35.81796 46.13500 82.60000 


、_ 训练 模型 之 前 应 用 于 数据 的 任何 变 的， 之 后 需要 应 用 反 变 换 ， 以 便 将 数据 转 
| 换 回 原始 的 测量 单位 。 为 了 便于 重新 调整 ， 保 存 原始 数据 或 者 至 少 保存 原始 
数据 的 主要 统计 量 是 明智 的 。 


按照 I-Cheng Yeh 原始 发 表 的 范例 ， 将 数据 划分 为 一 个 具有 75% 案例 的 训练 集 和 一 个 具 
有 25% 案例 的 测试 集 。 所 使 用 的 CSV 文件 已 经 以 随机 的 顺序 排列 ， 所 以 我 们 只 需要 将 其 分 
成 两 部 分 : 


> concrete train <- concrete norm[1:773, ] 
> Concrete test <- concrete norm[774:1030, ] 


我 们 将 使 用 训练 数据 集 来 创建 神经 网 络 ， 使 用 测试 数据 集 来 评估 模型 推广 到 未 来 的 结果 
有 多 好 。 因 为 很 容易 过 度 拟 合 神经 网 络 ， 所 以 这 个 步骤 非常 重要 。 


7.2.3 第 3 步 一 基于 数据 训练 模型 


为 了 对 混凝土 中 使 用 的 原料 和 最 终 产品 的 强度 之 间 的 关系 建立 模型 ， 我 们 将 使 用 一 个 多 
层 前 馈 神 经 网 络 。 由 Stefan Fritsch 和 Frauke Guenther 创建 的 neuralnet 添加 包 提 供 了 一 
个 标准 的 易于 使 用 的 网 络 实现 ， 而 且 该 添加 包 还 提供 了 一 个 函数 用 来 绘制 网 络 拓扑 结构 。 由 
于 这 些 原因 ，neuralnet 添加 包 的 实现 对 于 学 习 更 多 关于 神经 网 络 的 知识 是 一 个 强大 的 选 
择 。 不 过 ， 这 并 不 是 说 不 能 用 它 来 很 好 地 完成 实际 工作 一 一 很 快 你 就 会 看 到 ， 这 是 一 个 相当 
强大 的 工具 。 


因为 neuralnet 添加 包 没 有 包含 在 基本 R 中， 所 以 需要 通过 输入 命令 instal1: 
packages ("neuralnet") 来 安装 ， 并 使 用 1ibrary (neuralnet) 命令 将 其 加 载 到 RR 
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中 。 使 用 下 面 文本 框 中 的 语法 ， 所 包含 的 neuralnet () 函数 就 可 以 用 来 训练 用 于 数值 预测 
的 神经 网 络 。 


R 中 还 有 一 些 其 他 常用 的 添加 包 来 训练 人 工 神 经 网 络 模型 ， 每 个 添加 包 都 有 
、 其 独特 的 优势 和 劣势 。 因 为 nnet 添加 包 的 安装 是 作为 标准 R 安装 的 一 部 
以 分 ， 所 以 它 可 能 是 最 经 常用 来 实现 人 工 神经 网 络 的 添加 包 。 它 使 用 一 种 比 标 
准 的 后 向 传播 算法 略微 复杂 的 算法 。 另 一 个 强大 的 选择 是 RSNNS 添加 包 ， 
它 提供 了 一 套 完整 的 神经 网 络 功能 ， 其 不 利 的 一 面 就 是 学 习 起 来 更 难 。 


建立 模型 : 

m <- neuralnet (target ~ predictors, data = mydata, hidden 

e target: 是 数据 框 mydata 中 需要 建 模 的 输出 变量 

。 preictors: 是 给 出 数据 框 mydata 中 用 于 预测 的 特征 的 一 个 R 公式 

e data: 给 出 包含 变量 target 和 predictors 的 数据 框 

。 hidden; 给 出 隐藏 层 中 神经 元 的 数目 (默认 为 1 ) 

进行 预测 : 

p <- compute(m, test) 

e m: 函数 neuralnet () 所 训练 的 模型 

e test: 包含 测试 数据 的 数据 框 ， 它 具有 和 用 于 训练 模型 的 训练 数据 相同 的 特征 

该 函数 返回 一 个 两 元 素 的 列表 : $neurons， 用 于 保存 神经 网 络 每 一 层 的 神经 元 ; $net .result， 用 于 保存 
模型 的 预测 值 。 

例子 : 


concrete model <- neuralnet (strength ~ cement + slag + ash, data = concrete) 
model results <- compute(concrete model,concrete data)strength predictjons <- 
model results$net,.result 


我 们 将 从 训练 最 简单 的 只 有 一 个 单一 隐藏 节点 的 多 层 前 馈 网 络 开始 : 





> Concrete_model <- neuralnet (strength ~ cement + slag + 
ash + water + superplastic + 
Coarseagg + fineagg + age, 
data = concrete train) 


然后 ， 基 于 concrete_model 对 象 使 用 plot () 函数 将 网 络 拓扑 结构 可 视 化 : 

> plot (concrete model) 

在 这 个 简单 的 模型 中 ， 对 于 8 个 特征 中 的 每 一 个 特征 都 有 一 个 输入 节点 ， 后 面 跟着 一 个 
单一 的 隐藏 节点 和 一 个 单一 的 预测 混凝土 强度 的 输出 节点 。 每 一 个 连接 的 权重 也 都 被 描绘 出 
来 ， 偏 差 项 也 被 描绘 出 来 (通过 带 有 1 的 节点 表示 )。 该 图 还 报告 了 训练 的 步 数 和 一 个 称 为 
误差 平方 和 ( Sum of Squared Error，SSE) 的 度量 指标 。 当 评估 模型 的 性 能 时 ， 这 些 指标 很 
有 用 。 
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cement 
slag 
ash 
water 


0.68967 strength 
superplastic 


coarseagg 
fineagg 


age 





Error:6.916822 Steps:3222 


7.2.4 第 4 步 一 一 评估 模型 的 性 能 

网 络 拓扑 结构 图 让 我 们 帘 视 了 人 工 神 经 网 络 的 黑箱 ,但 是 它 并 没有 提供 更 多 关于 模型 拟 
合 数据 好 坏 的 信息 。 为 了 评估 模型 的 性 能 ， 可 以 基于 测试 数据 集 使 用 compute () 函数 生成 
预测 : 

> model results <- compute (concrete_mode1，concrete test[1:8]) 

注意 ，compute () 函数 的 运行 原理 与 我 们 已 经 使 用 至 今 的 predict () 函数 有 些 不 同 。 
它 返 回 一 个 带 有 两 个 分 量 的 列表 :$neurons， 用 来 存储 网 络 中 每 一 层 的 神经 元 ; $net. 
results， 用 来 存储 预测 值 。 我 们 想 要 的 是 后 者 : 

> predicted strength <- model results$net.result 

因为 这 是 数值 预测 问题 而 不 是 分 类 问题 ， 所 以 不 能 用 混淆 矩阵 来 检查 模型 的 准确 性 。 相 
反 ， 我 们 必须 度量 我 们 预测 的 混凝土 强度 与 其 真实 值 之 间 的 相关 性 ， 这 可 以 让 我 们 深入 了 解 
这 两 个 变量 之 间 线 性 相关 的 强度 。 

回想 一 下 ，cor () 函数 可 用 来 获取 两 个 数值 向 量 之 间 的 相关 性 : 


> Cor (Predicted_strength，concrete test$strength) 
[3 
[1,] 0.7170368646 





如 果 你 的 结果 不 同 ， 请 不 要 惊慌 。 因 为 神经 网 络 开始 于 随机 的 权重 ， 所 以 模 
型 之 间 的 预测 值 可 以 有 所 不 同 。 


相关 性 接近 1 表示 两 个 变量 之 间 具 有 很 强 的 线性 关系 。 因 此 ， 这 里 大 约 为 0.72 的 相关 性 
表示 具有 一 个 相当 强 的 线性 关系 。 这 意味 着 即使 具有 一 个 单一 的 隐藏 节点 ， 我 们 的 模型 做 了 
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相当 不 错 的 工作 


具有 一 个 隐藏 节点 的 神经 网 络 与 第 6 章 学 习 的 线性 回归 模型 类 似 ， 每 个 输入 
、、 节点 与 隐藏 节点 之 间 的 权重 类 似 于 回归 系数 ， 对 偏差 项 的 权重 类 似 于 截 距 
事实 上 ， 如 果 构 建 一 个 与 前 面 的 神经 网 络 原理 相同 的 线性 模型 ， 则 相关 系数 


为 0.74 
考虑 到 只 使 用 了 一 个 隐藏 节点 ， 因 此 很 有 可 能 提高 我 们 模型 的 性 能 。 让 我 们 试 着 建立 一 
个 更 好 的 模型 。 


7.2.5 第 5 步 一 一 提高 模型 的 性 能 


因为 具有 更 复杂 拓扑 结构 的 网 络 能 够 学 习 更 艰难 的 概念 ， 所 以 我 们 看 看 ， 当 隐藏 节 
点 的 个 数 增加 到 5 时 ， 会 发 生 什么 。 与 之 前 一 样 使 用 neuralnet () 函数 ,但 增加 参数 
hidden = 5: 


> concrete model2 <- neuralnet (strength ~ cement + slag + 
ash + water + superplastic + 
coarseagg + fineagg + age, 
data = concrete train, hidden = 5) 


青 次 绘制 网 络 图 ， 可 以 看 到 连接 的 数量 急剧 增加 。 这 如 何 影响 模型 的 性 能 呢 ? 


> plot (concrete model2) 


cement 





slag 


ash 





Water 





Strength 
Superplastic 


coarseagg 


fineagg 


age 








error:2.443754 steps:7230 


注意 ， 所 报告 的 误差 (依然 是 通过 SSE 度量 ) 已 经 从 之 前 模型 的 6.92 减少 为 这 里 的 
2.44。 此 外 ， 训 练 的 步 数 从 3222 步 上 升 为 7230 步 ， 考 虑 到 现在 的 模型 已 经 变 得 多 复杂 后 ， 
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这 也 就 不 足 为 奇 了 。 

采用 相同 的 步骤 对 预测 值 和 真实 值 进行 比较 ， 现 在 我 们 获取 的 相关 系数 大 约 为 0.8， 与 
之 前 的 结果 相 比 ， 这 是 一 个 相当 大 的 改进 。 

> mode1l_results2 <- Compute (concrete model2, concrete _ test [1:8]) 

> predicted strength2 <- model results2$net.result 

> cor (predicted strength2, concrete test$strength) 


[,1] 
[1,] 0.801444583 


有 趣 的 是 ， 在 原始 的 文章 中 ，I-Cheng Yeh 使 用 了 一 个 非常 相似 的 神经 网 络 ， 其 报告 的 平 
均 相 关 性 为 0.855。 由 于 某 种 原因 ， 我 们 得 到 的 相关 系数 稍 差 一 点 儿 。 我 们 的 观点 是 , I-Cheng 
Yeh 是 土木 工程 教授 ， 因 此 他 可 能 已 经 在 数据 准备 中 应 用 了 一 些 学 科 专业 知识 。 如 果 你 想 用 
神经 网 络 做 更 多 的 实践 ， 你 可 以 尝试 应 用 本 章 前 面 学 到 的 原则 ， 或 者 可 以 通过 使 用 不 同 数量 
的 隐藏 节点 ， 或 者 采用 不 同 的 激活 函数 等 ,来 战胜 他 的 结果 。 此 外 ，?neuralnet 帮助 页 面 
提供 了 更 多 关于 可 调整 的 各 种 参数 的 信息 。 


7.3 理解 支持 向 量 机 


支持 向 量 机 ( Support Vector Machine，SVM) 可 以 想象 成 一 个 平面 ， 该 平面 定义 了 各 个 
数据 点 之 间 的 界线 ， 而 这 些 数 据点 代表 根据 它们 的 特征 值 绘制 在 多 维 空间 中 的 案例 。 支 持 向 
量 机 的 目标 是 创建 一 个 平面 边界 ， 称 为 一 个 超 平面 (hyperplane)， 使 得 任何 一 边 的 数据 划分 
都 是 相当 均匀 的 。 通 过 这 种 方式 ， 支 持 向 量 机 学 习 结合 了 第 3 章 中 呈现 的 基于 实例 的 近邻 学 
习 和 第 6 章 中 描述 的 线性 回归 建 模 两 个 方面 ， 这 种 结合 是 极其 强大 的 ， 人 允许 支 持 向 量 机 对 非 
常 复杂 的 关系 进行 建 模 。 

虽然 推动 支持 向 量 机 的 数学 基础 已 经 存在 了 几 十 年 ， 但 是 它们 近来 才 人 气 暴涨 。 这 当然 
植 根 于 它们 最 先进 的 性 能 ， 但 或 许 也 是 因为 这 个 事实 ， 即 屡 获 殊荣 的 支持 向 量 机 算法 已 经 通 
过 许多 程序 语言 (包括 R) 在 一 些 受 到 欢迎 和 大 力 支持 的 库 中 得 到 实现 。 这 使 得 支持 向 量 机 
得 到 更 广泛 的 用 户 接受 ， 而 这 些 用 户 之 前 可 能 因为 支持 向 量 机 的 实现 涉及 比较 复杂 的 数学 而 
不 去 用 它 。 然 而 ， 好 消息 是 ， 尽 管 数学 可 能 很 难 ， 但 是 基本 的 概念 是 可 以 理解 的 。 

支持 向 量 机 几乎 可 以 适用 于 所 有 的 学 习 任 务 ， 包 括 分 类 和 数值 预测 两 个 方面 。 许 多 算法 
成 功 的 关键 都 是 来 自 模式 识别 。 著 名 的 应 用 包括 : 

口 在 生物 信息 学 领域 中 ， 识 别 癌症 或 者 其 他 遗传 疾病 的 微 阵列 基因 表达 数据 的 分 类 。 

口 文本 分 类 ， 比 如 根据 主题 鉴定 用 于 某 个 文档 或 者 组 织 文档 的 语言 。 

口 罕见 却 重要 的 事件 检测 ， 如 内 燃 机 故障 、 安 全 漏洞 或 者 地 震 等 。 

当 文 持 向 量 机 用 于 二 元 分 类 时 ， 它 最 容易 理解 ， 这 就 是 为 什么 该 方法 已 经 被 习惯 应 用 的 
原因 。 因 此， 在 剩 下 的 部 分 ， 我 们 将 只 专注 于 支持 向 量 机 分 类 器 。 然 而 ， 不 用 担心 ， 当 支持 
向 量 机 适用 于 其 他 学 习 任 务 ( 比 如， 数值 预测 ) 时 ， 这 里 学 习 的 原则 同样 适用 。 
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7.3.1 ”用 超 平 面 分 类 

正如 前 面 所 指出 的 ， 支 持 向 量 机 使 用 一 种 称 为 超 平面 的 线性 边界 将 数据 划分 成 具有 相似 
元 素 的 组 ， 通 常 由 类 值 表示 。 例 如 ， 下 图 描绘 了 一 个 超 平面 在 二 维和 三 维 空间 中 将 数据 分 成 
了 圆 形 组 和 正方 形 组 。 由 于 圆 形 和 正方 形 可 以 由 一 条 直线 或 者 一 个 平面 进行 划分 ， 所 以 它们 
是 线性 可 分 的 (linearly separable)。 起 初 ， 我 们 只 考虑 简单 的 情况 。 在 简单 的 情况 下 ， 这 是 
正确 的 ， 但 支持 向 量 机 同样 可 以 扩展 到 数据 不 是 线性 可 分 的 问题 。 





\， 为 方便 起 见 ， 在 二 维 空间 中 ， 超 平面 通常 被 描绘 成 一 条 线 ， 但 这 仅仅 是 因为 
必 人 在 大 于 二 维 的 空间 中 ， 这 很 难说 明 。 在 现实 中 ， 超 平面 在 高 维 空间 中 是 一 个 
平面 一 一 一 个 可 能 很 难 让 你 理解 的 概念 。 


支持 向 量 机 算法 的 任务 就 是 确定 一 条 用 于 分 隔 两 个 类 别 的 线 。 如 下 图 所 示 ， 圆 形 组 和 正 
方形 组 之 间 的 分 阳线 不 止 一 种 选择 ， 有 3 种 标记 为 a、b 和 <c 
的 选择 。 那 么 支持 向 量 机 算法 该 怎样 选择 呢 ? 


7.3.2 ”寻找 最 大 间隔 

回答 上 面 的 问题 涉及 寻找 创建 两 个 类 之 间 最 大 间隔 的 最 
大 间隔 超 平面 ( Maximum Margin Hyperplane，MMH)。 尽 管 
分 隔 圆 形 和 正方 形 的 3 条 线 中 的 任意 一 条 都 将 对 所 有 的 数据 
点 进行 正确 分 类 ， 但 很 有 可 能 产生 最 大 间隔 的 那 条 线 将 能 够 
最 好 地 推广 到 将 来 的 数据 。 这 是 因为 在 边界 附近 点 位 置 的 微 
小 变化 可 能 会 导致 这 些 点 中 的 某 些 点 碰巧 落 在 线 之 外 | 

支持 向 量 ( support vector) (由 下 图 中 的 箭头 所 示 ) 是 每 
个 类 中 最 接近 最 大 间隔 超 平面 的 点 ， 而 且 每 类 必须 至 少 有 一 
个 文 持 向 量 ， 但 也 可 能 有 多 个 。 单 独 使 用 支持 向 量 ， 就 可 以 
定义 最 大 间隔 超 平面 ， 这 是 支持 向 量 机 的 一 个 重要 特征 。 支 
持 向 量 机 提供 了 一 种 非常 简洁 (紧凑 ) 的 方式 来 存储 分 类 模 口 
型 ， 即 使 特征 的 个 数 非常 多 。 

用 来 确定 支持 向 量 的 算法 依赖 于 向 量 几何 ， 并 涉及 本 书 











a 


rs = 
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范围 之 外 的 一 些 相 当 环 手 (复杂 ) 的 数学 问题 。 然 而 ， 这 个 过 程 的 基本 原理 是 相当 简单 的 。 


更 多 关于 支持 向 量 机 的 数学 论述 可 以 在 下 面 这 篇 经 典 论文 中 找到 : Support- 
vector network, Machine Learning, Vol. 20, pp. 273-297, by C. Cortes and V. 
LE Vapnik (1995)。 初学 者 水 平 的 探讨 可 参见 : Support vector machines: hype or 
~ hallelujah, SIGKDD Explorations, Vol. 2, No. 2, pp. 1-13, by K.P. Bennett and 
C. Campbell (2003)。 更 深入 的 了 解 ， 可 参见 : Support Vector Machines by I. 
Steinwart and A. Christmann (Springer Publishing Company, 2008), 


1. 线性 可 分 的 数据 情况 


在 类 是 线性 可 分 的 假设 下 ,如 何 找到 最 大 间隔 是 最 容易 理解 的 。 在 这 种 情况 下 ， 最 大 间 
隔 超 平 面 要 尽 可 能 地 远离 两 组 数据 点 的 外 边界 ， 这 些 外 
边界 称 为 凸 包 ( convex hull) 。 然 后 ， 最 大 间隔 超 平面 就 
是 两 个 凸 包 之 间 最 短 距离 直线 的 垂直 平分 线 。 使 用 一 种 
称 为 二 次 优化 (quadratic optimization ) 的 技术 ， 复 杂 的 
计算 机 算法 就 能 够 通过 这 种 方式 找到 最 大 间隔 。 

另 一 种 等 价 的 替代 方法 涉及 通过 每 一 个 可 能 的 超 平 
面 的 空间 搜索 ， 从 而 找到 一 组 将 数据 划分 成 同类 组 的 两 
个 平行 平面 ， 但 这 两 个 平面 本 身 却 要 尽 可 能 地 远离 。 换 
言 之 ， 这 个 过 程 有 点 儿 像 试图 找到 能 够 适合 从 楼 梯 井 上 
搬 到 了 卧室 的 最 大 床 垫 。 

要 理解 这 个 搜索 过 程 ， 需 要 通过 一 个 超 平面 来 确切 定义 上 面 所 叙述 的 过 程 。 在 并 维 空间 
中 ， 使 用 下 面 的 方程 : 





wx+b=0 
如 果 你 对 这 种 表示 法 不 熟悉 ， 那 么 你 需要 知道 字母 上 方 的 箭头 表明 它们 是 向 量 而 不 是 数 
字 。 特 别 地 ，m 是 一 个 n 维 的 权重 向 量 ， 即 {wl1, w2, …, wn}， 而 b 是 一 个 称 为 偏差 的 单一 的 
数字 
\， ”如 果 你 感到 困 总 或 者 难以 想象 平面 ， 那 么 不 必 担 心 这 些 细节 ， 可 以 简单 地 认 
交合 入 各 二 完 六 一 条 内 一 种 方 吉 ， 与 林 入 名 (pm+ 二 加 夺 害 六 这 六 
空间 中 的 直线 一 样 。 


利用 这 个 公式 ， 该 过 程 的 目标 就 是 找到 一 组 指定 两 个 超 平面 的 权重 ， 如 下 所 示 : 


证:X 二 六 之 十] 
wx+ bb-l 
同样 ,我 们 将 要 求 这 两 个 指定 的 超 平面 使 得 第 一 类 中 所 有 的 点 落 在 第 一 个 超 平面 的 上 
方 ， 另 一 类 中 所 有 的 点 落 在 第 二 个 超 平面 的 下 方 。 只 要 数据 是 可 分 的 ， 这 样 做 就 是 可 能 的 。 
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向 量 几何 定义 这 两 个 平面 之 间 的 距离 为 : 
2 
[| 
这 里 ，||wl| 表示 欧 几 里 得 范 数 (Euclidean norm) (从 原点 到 向 量 w 的 距离 )， 因 此 ， 要 最 大 
化 距离 。 我 们 需要 最 小 化 |Iwl|。 为 了 便于 找到 解决 方案 ， 这 类 任务 通常 重新 表述 为 一 组 约束 : 
min= | 
使 得 y (WW: 二 一 b) 二 1 Vi 
尽管 这 看 起 来 难以 处 理 ， 但 是 如 果 你 分 块 思考 ， 就 不 会 太 复 杂 。 基 本 上 ， 这 种 想法 就 是 
在 使 得 每 一 个 数据 点 y 正确 分 类 的 条 件 下 ， 最 小 化 前 面 的 公式 。 注 意 , y 表示 分 类 值 (转换 
为 +1, 或 -1)， 此 外 ,倒置 的 “A” 表 示 “ 所 有 "(for all) 的 
与 用 其 他 方法 寻找 最 大 间隔 一 样 ， 寻 找 该 问题 的 解决 方案 是 二 次 优化 软件 的 一 项 工作 。 
尽管 它 能 够 处 理 密集 型 的 数据 ， 但 是 专门 的 算法 即使 对 于 相当 大 的 数据 集 ， 也 能 够 很 快 解决 
这 些 问 题 。 


/用 


2. 非 线性 可 分 的 数据 情况 

当 研 究 过 支持 向 量 机 背后 的 理论 后 ， 你 可 能 想 知 道 关 于 房间 里 的 大 象 : 在 数据 不 是 线性 
可 分 的 情况 下 ,会 发 生 什么 ?这 个 问题 的 解决 方案 使 用 
了 一 个 松弛 变量 ( slack variable )， 这 样 就 创建 了 一 个 软 
间隔 ， 人 允许 一 些 点 落 在 线 不 正确 的 一 边 。 下 图 显示 两 个 
点 落 在 了 与 松弛 项 (用 希腊 字母 表示) 相对 应 的 线 的 
错误 边 : 

用 成 本 值 ( 记 为 C) 表示 所 有 违反 约束 的 点 ， 而 且 
该 算法 试图 使 总 成 本 最 小 ， 而 不 是 寻找 最 大 间隔 。 因 此 ， 
可 以 修正 优化 问题 : 








min ol + CD 
使 得 y (Ww: 计 -b) 宇 1l-& VE ,20 
如 果 你 现在 感到 困惑 ， 请 不 用 担心 ， 你 并 不 孤单 (很 多 人 都 感到 困惑 )。 幸 运 的 是 ， 支 持 
向 量 机 软件 包 将 会 愉快 地 为 你 解决 优化 问题 ， 而 你 无 需 理解 技术 细节 。 需 要 理解 的 重要 一 点 
是 增加 的 成 本 参数 C， 修 改 这 个 值 将 调整 对 于 落 在 超 平面 错误 一 边 的 案例 的 惩罚 。 成 本 参数 
越 大 ， 努 力 实现 100% 分 离 的 优化 就 会 越 困 难 。 另 一 方面 ， 较 小 的 成 本 参数 将 把 重点 放 在 更 
宽 (广泛 ) 的 整体 边缘 。 为 了 创建 可 以 很 好 概括 未 来 数据 的 模型 ， 在 这 两 者 之 间 取 得 平衡 是 
非常 重要 的 - 
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7.3.3 ”对 非 线 性 空间 使 用 核 函数 


在 许多 现实 世界 的 应 用 中 ， 变 量 之 间 的 关系 是 非 线性 的 。 正 如 我 们 刚刚 所 发 现 的 ， 基 于 
这 样 的 数据 ， 支 持 向 量 机 通过 添加 一 个 松弛 变量 后 仍然 可 以 被 训练 ， 这 允许 一 些 案例 被 错误 
地 分 类 。 然 而 ， 这 并 不 是 处 理 非 线性 问题 的 唯一 方式 。 支 持 向 量 机 的 一 个 关键 特征 就 是 它们 
能 够 使 用 一 种 称 为 核 技巧 (kernel trick) 的 处 理 方式 将 问题 映射 到 一 个 更 高 维 的 空间 中 。 如 果 
这 样 做 ， 非 线性 关系 可 能 会 突然 看 起 来 是 完全 线性 的 。 

虽然 这 似乎 是 没有 意义 的 ， 但 通过 示例 ， 其 实 很 容易 说 明 。 在 下 面 的 图 中 , 左边 的 图 摘 
绘 了 一 个 天 气 类 (晴天 或 者 雪 天 ) 与 两 个 特征 (经度 ( Latitude) 和 纬度 ( Longitude)) 之 间 的 
非 线 性 关系 。 该 图 中 心 的 点 是 雪 天 (Snowy) 类 的 成 员 ， 而 边缘 的 点 全 都 是 晴天 (Sunny)。 这 
样 的 数据 可 能 产生 于 一 组 天 气 报告 ， 其 中 一 些 来 源 于 山顶 附近 的 基地 ， 而 男 一 些 则 来 源 于 山 
脚 周 围 的 基地 。 





输入 空间 高 维 空间 
@ © e@ 
@ 
纬度 全 ， 全 海拔 高 度 
© 人 全 Ae I 
a 核 技巧 
@ 全 
© e@ © 
经 度 经 度 


右边 的 图 ,在 使 用 了 核 技巧 后 ， 可 以 通过 一 个 新 维度 (海拔 高 度 ，Altitude) 的 视角 看 数 
据 。 通 过 添加 这 个 特征 ， 现 在 这 些 类 完全 线性 可 分 。 这 之 所 以 可 能 ， 是 因为 我 们 已 经 获得 了 
一 个 看 数据 的 新 视角 。 在 左 图 中 ， 我们 是 从 一 只 鸟 的 视角 看 山 ， 而 在 右 图 中 ， 我 们 是 从 地 平 
面 看 山 。 这 里 ， 趋 势 很 明显 了 : 在 更 高 的 海拔 高 度 就 发 现 了 雪 天 。 

具有 非 线 性 核 的 支持 向 量 机 通过 对 数据 添加 额外 的 维度 ， 以 便 以 这 种 方式 创建 分 离 。 从 
本 质 上 讲 ， 核 技巧 涉及 一 个 添加 能 够 表述 度量 特征 之 间 数 学 关系 新 特征 的 过 程 。 例 如 ， 高 度 
特征 在 数学 上 可 以 表示 为 纬度 和 经 度 之 间 的 一 个 相互 作用 一 一 点 越 接近 于 这 些 尺 度 的 每 一 个 
的 中 心 ， 高 度 就 越 高 ， 这 使 得 支持 向 量 机 可 以 学 习 原 始 数据 中 未 明确 度量 的 概念 。 

具有 非 线性 核 的 支持 向 量 机 是 极其 强大 的 分 类 器 ， 虽 然 它 们 也 确实 有 一 些 缺 点 。 其 优 缺 
点 如 下 表 所 示 : 





缺点 
寻找 最 好 的 模型 需要 测试 不 同 的 核 函数 和 模型 参数 的 






。 可 用 于 分 类 或 者 数值 预测 问题 







。 不 会 过 多 地 受到 噪声 数据 的 影响 ， 而 且 不 容 组 合 
易 出 现 过 度 拟 合 。 训练 缓慢 ， 尤 其 是 输入 数据 集 具有 大 量 的 特征 或 者 案 
。 可 能 比 神经 网 络 更 容易 使 用 ， 特 别 是 由 于 几 例 时 


个 得 到 很 好 支持 的 支持 向 量 机 算法 的 存在 
由 于 它 的 准确 度 高 ， 而 且 在 数据 挖掘 竞赛 中 
高 调 地 胜利 ， 所 以 越 来 越 受 欢 迎 


导致 一 个 复杂 的 黑箱 模型 ， 很 难 ， 甚 至 无 法 解释 
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在 一 般 情况 下 ， 核 函数 是 下 面 的 形式 。 这 里 ,该 函数 用 希腊 字母 phi 表示 ， 即 9(Xx) ， 是 
一 个 将 数据 转换 到 另 一 个 空间 的 映射 : 
K(x)=¢(E,)-G(5) 
使 用 这 种 形式 ， 核 函数 已 经 用 于 许多 不 同 领域 的 数据 。 最 常用 的 几 个 核 限 数 列举 如 下 。 
几乎 所 有 的 支持 向 量 机 软件 包 都 将 包括 这 些 核 ， 以 及 许多 其 他 的 核 。 
线性 核 函 数 (linear kernel) 根本 不 需要 转换 数据 ， 因 此 它 可 以 简单 地 表示 为 特征 的 点 积 : 


天公 ,元 )= 雹 3 
次 数 为 4 的 多 项 式 核 函 数 (polynomial kernel) 添加 了 一 个 简单 的 非 线 性 数据 变换 : 
K 人 二 总 )= 全 天 + 


S 形 核 函 数 ( sigmoid kernel) 产生 支持 向 量 机 模型 ， 类 似 于 神经 网 络 使 用 $ 形 激活 函数 。 
希腊 字母 kappa 和 delta 用 来 作为 核 参数 : 


天 人 ,总 )= tanh (kx, “ -6) 
高 斯 RBF 核 函 数 (Gaussian RBF kernel) 类 似 于 RBF 神经 网 络 。RBF 核 函 数 对 于 许多 类 
型 的 数据 都 运行 得 很 好 ， 而 且 被 认为 是 用 于 许多 学 习 任 务 的 一 个 合理 的 开始 : 


对 于 特定 的 任务 , 没有 可 以 依赖 的 规则 用 于 匹配 核 函数 。 在 很 大 程度 上 拟 合 取决 于 要 
学 习 的 概念 以 及 训练 数据 的 量 和 特征 之 间 的 关系 。 通 常情 况 下 ， 一 点 点 的 试验 和 误差 需要 基 
于 验证 数据 集训 练 和 评估 多 个 支持 向 量 机 。 也 就 是 说 ， 在 许多 情况 下 ， 核 盟 数 的 选择 是 任意 
的 ， 因 为 性 能 可 能 只 有 轻微 的 变化 。 为 了 看 到 在 实际 中 它 是 如 何 运 行 的 ， 下 面 将 我 们 对 支持 
向 量 机 分 类 的 理解 应 用 于 一 个 现实 世界 的 问题 。 


7.4 用 支持 向 量 机 进行 光学 字符 识别 


对 许多 类 型 的 机 器 学 习 算 法 来 说 ， 图 像 处理 都 是 一 项 艰巨 的 任务 。 将 像素 模式 连接 到 更 
高 概念 的 关系 是 极其 复杂 的 ， 而 且 很 难 定 义 。 例 如 ， 让 一 个 人 识别 一 张 面 孔 、 一 只 猫 或 者 字 
母 A 是 很 容易 的 ， 但 用 严格 的 规则 来 定义 这 些 模式 是 很 困难 的 。 此 外 ， 图 像 数据 往往 是 噪声 
数据 。 关 于 如 何 捕 获 图 像 ， 有 许多 细微 的 变化 ， 这 取决 于 灯光 、 定 位 和 对 象 的 位 置 。 

支持 向 量 机 非常 适合 处 理 图 像 数据 带 来 的 挑战 ， 它 们 能 够 学 习 复杂 的 图 案 而 不 需要 对 品 
声 过 度 敏感 ， 它 们 能 够 以 高 的 准确 度 识别 光学 图 案 。 而 且 ， 支 持 向 量 机 的 主要 缺点 (黑箱 模 
型 的 代表 )， 对 于 图 像 处 理 并 不 那么 重要 。 如 果 一 个 支持 向 量 机 能 够 区 分 一 只 猫 和 一 只 狗 ， 那 
么 它 是 如 何 做 到 的 并 不 很 重要 。 
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在 本 节 中 ,我 们 将 研究 一 个 模型 ， 该 模型 类 似 于 那些 往往 与 桌面 文档 扫描 仪 捆绑 在 一 起 
的 光学 字符 识别 ( Optical Character Recognition，OCR ) 软件 的 核心 模型 。 此 类 软件 的 目的 是 
通过 将 印刷 或 者 手写 文本 转换 成 一 种 电子 形式 ， 保 存在 数据 库 中 来 处 理 纸 质 文件 。 当 然 ， 由 
于 手写 风格 和 印刷 字体 有 许多 变 体 ， 所 以 这 是 困难 的 问题 。 即 便 如 此 ， 软 件 用 户 还 是 期 待 完 
美 ， 因 为 纶 漏 或 者 拼写 错误 可 能 会 导致 商业 环境 中 的 滥 过 或 者 代价 高 昂 的 过 失 (错误 )。 让 我 
们 来 看 看 支持 向 量 机 是 否 能 够 胜任 这 项 任务 。 


7.4.1 第 1 步 一 一 收集 数据 

当 光 学 字符 识别 软件 第 一 次 处 理 文件 时 ， 它 将 文件 划分 成 一 个 和 矩阵， 从 而 网 格 中 的 每 一 
个 单元 包含 一 个 单一 的 图 像 字符 (glyph)， 这 是 一 种 适用 于 字母 、 符 号 或 者 数字 的 好 方式 。 接 
着 ， 对 于 每 一 个 单元 ， 该 软件 将 试图 对 一 组 它 能 识别 的 所 有 字符 进行 图 像 字 符 匹 配 。 最 后 ， 
单个 字符 将 重新 在 一 起 组 合成 间 ， 这 可 以 用 文档 语言 中 的 字典 来 有 选择 地 进行 拼写 检查 。 

在 这 个 练习 中 ,假设 我 们 已 经 开发 了 将 文件 分 割 成 矩形 区 域 ， 每 一 个 区 域 包含 一 个 单 
-字符 的 算法 ; 还 假设 文件 中 只 包含 英文 字母 字符 。 因 此 ， 我 们 将 模拟 一 个 过 程 ， 涉 及 对 从 
A ~Z 的 26 个 字母 中 的 一 个 进行 图 像 字符 匹配 。 

为 此 ， 使 用 由 W. Frey 和 D.J. Slate 捐 赠 给 UCI 机 器 学 习 数 据 仓 库 (UCI Machine 
Learning Data Repository ) (http://archive.ics.uci.edu/ml) 的 一 个 数据 集 。 该 数据 集 包 含 了 26 个 
大 写 英文 字母 的 2000 个 案例 ， 使 用 20 种 不 同 的 随机 重 塑 和 扭曲 的 黑色 和 白色 字体 印刷 。 

二 有关 这 些 数据 的 更 多 信息 ， 请 参考 : Letter recognition using Holland-style adaptive 
上 一 classifiers, Machine Learning, Vol. 6, pp. 161-182, by W. Frey and D.J. Slate (1991)。 





下 图 由 W. Frey 和 D.J. Slate 发 布 ， 提供 了 一 个 包含 一 些 印 刷 图 像 字 符 的 案例 。 这 种 方式 
的 扭曲 ， 用 计算 机 识别 字母 是 具有 挑战 性 的 ， 但 这 些 字母 


却 很 容易 被 人 识别 : A Ad[4A444 AA 
7.4.2 第 2 步 一 探索 和 准备 数据 BBWpPBBP ND 


根据 Frey 和 Slate 提供 的 文件 ， 当 图 像 字符 被 扫描 到 Wan 

计算 机 中 ， 它 们 将 转换 成 像素 ， 并 且 有 16 个 统计 属性 。 Gb Ce CCCC 
这 些 属性 用 图 像 字符 的 水 平和 垂直 尺寸 、 黑 色 (相对 FF 

于 白色 ) 像素 的 比例 、 像 素 的 平均 水 平 与 垂直 位 置 来 测量 9 证 F FT 

字符 。 据 推测 ， 字 符 所 构成 的 盒子 的 不 同 区 域 的 黑色 像素 浓度 的 差异 应 该 提供 了 一 种 区 分 字 

母 表 中 26 个 字母 的 方法 。 


~ 要 理解 这 个 例子 ， 你 需要 从 Packt 出 版 社 的 网 站 下 载 letterdata.csv 文 
QN 件 ， 并 将 该 文件 保存 到 R 的 工作 目录 中 。 


将 数据 读 到 R 中 ， 确 认 接 收 到 的 数据 具有 16 个 特征 ， 这 些 特征 定义 了 每 一 个 字母 类 的 
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案例 。 正 如 预期 的 那样 ，letter 有 26 个 水 平 : 


> letters <- read.csv("letterdata.csv") 
> str(letters) 
data.frame': 20000 obs. of 17 variables: 


xy2bar: int 
xedge : int 
xedgey: int 
yedge : int 
yedgex: int 


和 二 


55921 
10 9 8 107 107 TY sas 


$ letter: Factor w/ 26 levels "A'","B", "CC", "DD", 
$$ Xbox : nt 2 53 二 2 1 us 
S VBoR, ': Ant. BB L211 LL lL 1121 2 15 
Swvidth : int 3 36635534 13. 

S heights int 55778518 和 了 在 9 sn 
$$ onpix : int 1263134127. 

$ xbar : int 8 10 105888 8 10 13 
$vbar :din 13569687262 ... 
$ x2bar : int 0 524666226 as 
$ y2bar : int 6466696262... 
$ xybar : int 6 13 1046578 12 12 
$ x2ybar: int 103345656 rr 
* 8 9 

$ 0 

3 8 

$ 0 

$ 8 


回想 一 下 ， 支 持 向 量 机 学 习 算 法 需要 所 有 的 特征 都 是 数值 型 的 ， 而 且 每 一 个 特征 需要 缩 
小 到 一 个 相当 小 的 区 间 中 。 在 这 种 情况 下 ， 每 一 个 特征 都 是 一 个 整数 ， 所 以 不 需要 将 任意 一 
个 因子 转换 成 数字 。 另 一 方面 ， 这 些 整 型 变量 的 一 些 范 围 显现 得 相当 宽 ， 这 似乎 暗示 需要 标 
准 化 或 者 规范 化 数据 。 事 实 上 ， 我 们 可 以 跳 过 这 一 步 ， 因 为 用 来 拟 合 支持 向 量 机 模型 的 R 添 
加 包 会 自动 帮助 我 们 对 数据 进行 重新 调整 。 

考虑 到 大 部 分 的 数据 准备 都 已 经 帮助 我 们 完成 ， 所 以 我 们 可 以 直接 跳 到 机 器 学 习 过 程 的 
训练 和 测试 阶段 。 在 前 面 的 分 析 中 ， 需 要 在 训练 集 和 测试 集 之 间 随 机 地 划分 数据 。 尽 管 我 们 
在 这 里 可 以 做 , 但 是 Frey 和 Slate 已 经 将 数据 随机 化 ， 并 建议 使 用 前 16 000 个 记录 ( 80%) 
来 建立 模型 ， 使 用 后 4000 条 记录 ( 20%) 来 进行 测试 。 按 照 他 们 的 建议 ， 我们 可 以 创建 训练 
数据 框 和 测试 数据 框 ， 如 下 代码 所 示 : 


> letters train <- letters[1:16000, ] 
> letters test <- letters{16001:20000, |] 


既然 数据 准备 好 了 ， 那 就 让 我 们 开始 建立 分 类 器 吧 。 


7.4.3 第 3 步 一 一 基于 数据 训练 模型 

当 谈 到 在 R 中 拟 合 支 持 向 量 机 模型 时 ， 有 几 个 突出 的 添加 包 可 以 选择 。 来 自 维 也 纳 理工 
大 学 ( Vienna University of Technology，TU Wien) 统计 系 的 e1071 添加 包 提 供 了 一 个 屡 获 
殊荣 的 LIBSVM 库 的 R 接口 ， 即 一 个 用 C++ 编写 的 广泛 使 用 的 开源 支持 向 量 机 程序 。 如 果 
你 已 经 熟悉 LIBSVM ,你 可 能 想 从 这 里 开始 。 


EC 关于 LIBSVM 的 更 多 信息 ， 请 参考 该 作者 的 网 站 : http://www.csie.ntu.edu. 
~ tw/~cjlin/libsvm/, 
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同样 ， 如 果 你 已 经 投入 到 SVMlight 算法 中 ,那么 来 自 多 特 蒙 德 工业 大 学 ( Dortmund 
University of Technology，TU Dortmund) 统计 系 的 klaR 添加 包 提 供 了 R 中 该 支持 向 量 机 的 
函数 实现 。 


2 


C&O 关于 SVMlight 的 信息 ， 可 以 看 一 下 : http://svmlight.joachims.org/。 


最 后 ， 如 果 你 是 从 头 开始 ,那么 用 kezrnlab 添加 包 中 的 支持 向 量 机 函数 或 许 是 最 好 的 
开始 。 这 个 添加 包 的 一 个 有 趣 优点 就 是 它 原 本 就 是 在 R 中 开发 的 ， 而 不 是 在 C 或 者 C++ 中 
开发 的 ， 这 使 得 它 可 以 很 容易 地 设置 ， 没 有 任何 隐藏 在 幕后 的 内 部 结构 。 或 许 更 重要 的 是 ， 
与 其 他 的 选择 方案 不 同 ，kernlab 添加 包 可 以 与 caret 添加 包 一 起 使 用 ， 这 就 允许 支持 向 
量 机 模型 可 以 使 用 各 种 自动 化 方法 进行 训练 和 评估 (在 第 11 章 中 有 更 深入 的 介绍 )。 


mW 关于 kernlab 添加 包 更 详尽 的 介绍 ， 请 参考 如 下 网 站 中 该 作者 的 论文 。 
http://www.jstatsoft.org/v11/109/, 


用 kernlab 添加 包 来 训练 支持 向 量 机 分 类 器 的 语法 如 下 所 示 。 如 果 你 碰巧 使 用 其 他 添 
加 包 ， 那么 这 些 命 令 在 很 大 程度 上 也 是 相似 的 。 默 认 情 况 下 ，ksvm() 函数 使 用 高 斯 RBF 核 
函数 ， 但 也 提供 了 一 些 其 他 的 选项 。 





支持 向 量 机 语法 
应 用 kernlab 添加 包 中 的 ksvm() 函数 


建立 模型 : 
m <- ksvm(target ~ predictors, data = mydata, kernel = "rbfdot", c = 1) 
e target: 是 数据 框 mydata 中 需要 建 模 的 输出 变量 
e preictors: 是 给 出 数据 框 mydata 中 用 于 预测 的 特征 的 一 个 R 公式 
e data: 给 出 包含 变量 target 和 predictors 的 数据 框 
。 kernel: 给 出 隐 一 个 非 线 性 映射 (mapping)， 例 如 "rbfdot" ( 径 向 基 函 数 )， "polydot"( 多 项 式 函 数 )， 
"tanhdot" ( 双 曲 正切 函数 ) ,"vanilladqot'"( 线 性 函数 ) 
e c: 用 于 给 出 违法 约束 条 件 时 的 惩罚 , 即 对 于 “ 软 边 界 ” 的 惩罚 的 大 小 。 较 大 的 c 值 将 导致 较 罕 的 边界 
该 限 数 返回 一 个 可 以 用 于 预测 的 SVM 对 象 。 
进行 预测 : 
P <- predict (m， test, type = "response") 
e nm: 因数 ksvm() 所 训练 的 模型 
e test: 包含 测试 数据 的 数据 框 ， 它 具有 和 用 于 训练 模型 的 训练 数据 相同 的 特征 
e type : 用 于 指定 预测 的 类 型 为 "response" (预测 类 别 )， 或 者 "probabilities'" (预测 概率 ， 每 一 列 
对 应 一 个 类 水 平 值 ) 
根据 type 参数 的 设 定 ， 该 函数 返回 一 个 包含 预测 类 别 (或 者 概率 ) 的 向 量 (或 者 矩阵 )。 两 元 素 的 列表 ; 
$neurons， 用 于 保存 神经 网 络 每 一 层 的 神经 元 ; $net .result ， 用 于 保存 模型 的 预测 值 。 
例子 : 


letter classifier <- ksvm(letter ~ . , data = letters train, kernel = "vanilladot") 






















letter prediction <- predict (letter classifier, letters test) 
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为 了 提供 度量 支持 向 量 机 性 能 的 基准 ， 我 们 从 训练 一 个 简单 的 线性 支持 向 量 机 分 类 器 开 
始 。 如 果 你 还 没有 准备 好 ， 使 用 命令 instal1.packages ("kernlab") 将 kernlab 添 
加 包 安 装 到 系统 中 。 然 后 ， 就 可 以 基于 训练 数据 调用 ksvm() 函数 ， 并 使 用 vanilladot 
选项 指定 线性 核 函 数 ( 即 vani1l1la)， 如 下 所 示 : 


> library (kernlab) 
> letter classifier <- ksvm(letter ~ ., data = letters train, 
kernel = "vanilladot") 


根据 计算 机 的 性 能 ， 这 个 运算 可 能 需要 一 些 时 间 来 完成 。 当 它 完成 后 ,输入 存储 模型 的 
名 称 来 看 一 看 关于 训练 参数 和 模型 拟 合 度 的 一 些 基本 信息 。 


> letter classifier 
Support Vector Machine object of class "ksvm'" 


SV type: C-sve (classification) 
parameter : cost C=1 


Linear (vanilla) kernel function. 
Number of Support Vectors : 7037 


Objective Function Value : -14.1746 -20.0072 -23.5628 -6.2009 -7.5524 
-32.7694 -49.9786 -18.1824 -62,1111 -32.7284 -16,2209.,， 


Training error : 0.130062 
这 些 信息 几乎 没有 告诉 我 们 关于 模型 在 现实 世界 中 运行 好 坏 的 程度 。 因 此 ， 我 们 需要 根 
据 测试 数据 集 来 研究 模型 的 性 能 ， 从 而 判断 它 是 否 能 够 很 好 地 推广 到 未 知 的 数据 。 


7.4.4 第 4 步 一 一 评估 模型 的 性 能 

predict () 函数 允许 我 们 基于 测试 数据 集 使 用 字母 分 类 模型 进行 预测 ; 

> letter predictions <- predict (letter classifier, letters test) 

因为 我 们 没有 指定 type 参数 ， 所 以 默认 使 用 了 type = "response"， 这样 就 返回 
了 一 个 向 量 。 该 向 量 包含 对 应 于 测试 数据 中 每 一 行 值 的 一 个 预测 字母 ， 使 用 head () 函数 ， 
我 们 可 以 看 到 前 6 个 预测 字母 是 U、N、V、X、N 和 H: 


> head (letter predictions) 
[1] UNVXNH 
Levels: ABCDEFGHIJKLMNOPOQRSTUVWXY?Z 


为 了 研究 分 类 器 的 性 能 ， 我 们 需要 将 测试 数据 集中 的 预测 值 与 真实 值 进行 比较 。 为 了 这 
个 目的 , 我们 使 用 table () 函数 (这 里 只 显示 了 全 部 表格 的 一 部 分 ): 


> tablel(letter predictions, letters test$letter) 
letter predictions A BB © DPD 王 

A 144 0 0 0 0 

B 0 121 0 5 2 
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€ 0 0 120 0 4 
D 2 2 Q 156 0 
E 0 0 当 0 127 


对 角 线 的 值 144、121、120、156 和 127 表示 的 是 预测 值 与 真实 值 相 匹配 的 总 记录 数 。 
同样 ， 出 错 的 数目 也 列 出 来 了 。 例 如， 位 于 行 B 和 列 D 的 值 表示 有 5 种 情况 将 字母 D 误 
认为 字母 B。 

单个 地 看 每 个 错误 类 型 ， 可 能 会 揭示 一 些 有 趣 的 关于 模型 识别 有 困难 的 特定 字母 类 型 的 
模式 ， 但 这 也 是 很 耗费 时 间 的 。 因 此， 我 们 可 以 通过 计算 整体 的 准确 度 来 简化 我 们 的 评估 ， 即 
只 考虑 预测 的 字母 是 正确 的 还 是 不 正确 的 ,并 忽略 错误 的 类 型 。 

下 面 的 命令 返回 一 个 元 素 为 TRUE 或 者 FALSE 值 的 向 量 ， 表 示 在 测试 数据 集中 ， 模 型 
预测 的 字母 是 否 与 真实 的 字母 相符 ( 即 匹配 )。 

> agreement <- letter predictions == letters test$letter 

使 用 table () 函数 ,我们 看 到 ， 在 4000 个 测试 记录 中 ， 分 类 器 正确 识别 的 字母 有 
3357 个 : 


> table (agreement) 
agreement 
FALSE TRUE 

643 3357 


以 百分比 计算 ， 准确 度 大 约 为 84%: 


> prop.table (table (agreement)) 
agreement 

FALSE TRUE 
0..16075 0..83925 


注意 ， 当 Frey 和 Slate 在 1991 年 发 布 该 数据 集 时 ， 他 们 报告 的 识别 准确 度 大 约 为 80%。 
仅仅 使 用 了 几 行 R 代码 ,我 们 的 结果 便 能 够 优 于 他 们 的 结果 ， 不 过 我 们 也 受益 于 超过 20 年 
的 额外 的 机 器 学 习 研 究 。 考 虑 到 这 一 点 ， 我 们 很 有 可 能 可 以 做 得 更 好 。 


7.4.5 ”第 5 步 一 一 提高 模型 的 性 能 


之 前 的 支持 向 量 机 模型 使 用 简单 的 线性 核 函 数 。 通 过 使 用 一 个 更 复杂 的 核 函 数 ， 我 们 可 
以 将 数据 映射 到 一 个 更 高 维 的 空间 ， 并 有 可 能 获得 一 个 较 好 的 模型 拟 合 度 。 

然而， 从 许多 不 同 的 核 函 数 进行 选择 是 具有 挑战 性 的 。 一 个 流行 的 惯例 就 是 从 高 斯 
RBF 核 函数 开始 ， 因 为 它 已 经 被 证 明 对 于 许多 类 型 的 数据 都 能 运行 得 很 好 。 我 们 可 以 使 用 
ksvm() 函数 来 训练 一 个 基于 RBF 的 支持 向 量 机 ， 如 下 所 示 : 


> letter classifier rbf <- ksvm(letter ~ ., data = letters train, 
kernel = "rbfdot") 


然后 ， 我 们 像 之 前 一 样 进行 预测 : 


> letter predictions rbf <- predict (letter classifier rbf, 
letters test) 


wwaibbt.com DO0OOOOODOO 


第 7 章 ”黑箱 方法 一 一 神经 网 络 和 支持 向 量 机 “s* 171 


最 后 ， 与 我 们 的 线性 支持 向 量 机 的 准确 度 进行 比较 : 
> agreement rbf <- letter predictions rbf == letters test$letter 
> table (lagreement rbf) 
agreement rbf 
FALSE TRUE 
281. ‘3719 
> prop.table (table (agreement rbf)) 
agreement rbf 
FALSE TRUE 
0.07025 0.92975 


通过 简单 地 改变 核 函数 ， 我 们 可 以 将 字符 识别 模型 的 准确 度 从 84% 提高 到 93%。 如 果 
这 种 性 能 水 平 对 于 光学 字符 识别 程序 仍 不 能 令 人 满意 ， 那 么 你 可 以 测试 其 他 的 核 函 数 或 者 通 
过 改变 成 本 约束 参数 C 来 修正 决策 边界 的 宽度 。 作 为 练习 ， 你 应 该 用 这 些 参 数 来 不 断 尝试 ， 
看 看 它们 如 何 影 响 最 终 的 成 功 模型 


7.5 总结 


在 本 章 中 ,我 们 研究 了 两 个 能 够 提供 巨大 潜能 的 机 天 学 习 方法 ， 但 它们 往往 由 于 其 复杂 
性 而 被 忽视 。 但 愿 你 现在 意识 到 这 样 的 名 声 至 少 是 有 点 不 当 的， 毕竟 推动 人 工 神经 网 络 和 文 
持 向 量 机 的 基本 概念 是 相当 容易 理解 的 。 

男 一 方面 ， 因 为 人 工 神 经 网 络 和 支持 向 量 机 已 经 存在 了 几 十 年 ， 所 以 它们 中 的 每 一 个 都 
有 许多 变化 。 本 章 只 是 给 出 了 涉及 用 这 些 方法 可 能 的 应 用 的 一 些 简单 知识 。 然 而 ， 通 过 使 用 
汞 在 这 里 学 到 的 术语 ， 你 应 该 能 够 学 到 区 分 每 天 都 在 发 展 的 许多 进步 之 间 的 细微 差别 。 

既然 我 们 已 经 花 了 一 些 时 间 学 习 了 从 简单 到 复杂 的 许多 不 同类 型 的 预测 模型 ， 那 么 在 下 
一 章 中 ， 我 们 将 开始 思考 用 于 其 他 类 型 的 学 习 任 务 的 方法 。 这 些 无 监督 的 学 习 技 术 将 会 带 来 
数据 内 部 的 引人入胜 的 模式 。 
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探寻 模式 一 一 基于 关联 规则 的 购物 篮 分 析 


回想 上 一 次 你 冲动 性 的 即兴 购物 ， 或许 你 正在 超市 的 结账 通道 等 待 ， 然 后 ， 你 就 顺手 买 
了 一 包 软 口香糖 或 者 一 份 单独 包装 的 块 状 糖 ; 或 许 ， 在 一 次 深夜 前 往 便利 店 买 尿布 和 婴儿 食 
品 时 ， 你 顺便 买 了 一 瓶 含 咖啡 因 的 饮料 或 者 一 箱 6 瓶装 的 啤酒 ; 你 甚至 可 能 在 你 最 喜欢 的 书 
商 给 你 推荐 这 本 书后 ， 你 一 时 兴起 买 了 这 本 书 。 总 之 ,不管 何 种 情况 ， 把 口香糖 和 糖果 放置 
在 购物 通道 ， 把 啤酒 存放 在 尿布 的 旁边 ， 以 及 书店 似乎 知道 哪 本 书 会 引起 你 的 兴趣 ， 这 一 切 
都 并 非 巧合 。 

在 过 去 的 几 年 中 ， 这 些 类 型 的 推荐 系统 都 是 基于 营销 专业 人 士 、 库 存 管理 人 员 或 者 卖家 
的 主观 经 验 。 而 近来 ， 机 融 学 习 已 经 用 来 研究 这 些 购买 行为 的 模式 ， 条 形 码 扫描 仪 、 计 算 机 
库存 系统 以 及 网 上 购物 产生 的 丰富 的 事务 型 数据 已 经 用 于 这 样 的 数据 挖掘 中 。 

本 章 介 绍 用 来 判别 事务 型 数据 中 商品 之 间 关 联 的 机 器 学 习 方法 。 由 于 其 在 零售 店 之 间 的 
广泛 使 用 ， 所 以 这 种 方法 通常 称 为 (市 场 ) 购物 篮 分 析 ( market basket analysis) 。 在 你 完成 本 
章 学 习 时 ， 你 将 会 学 到 : 

口 使 用 简单 的 统计 性 能 指标 ， 发 现 大 型 数据 集中 有 用 的 关联 方法 。 

口 如 何 管理 事务 型 数据 处 理 的 特性 。 

口 利用 关联 规则 对 真实 世界 的 数据 进行 (市场) 购物 篮 分 析 所 需要 的 完整 步骤 。 

要 了 解 机 带 学 习 是 如 何 找到 令 人 感 兴趣 的 方案 (模式 ) 的 ， 请 继续 阅读 。 从 本 章 开始 ， 
你 将 有 基础 尝试 自己 的 (市场 ) 购物 篮 分 析 。 


8.1 理解 关联 规则 


(市 场 ) 购物 篮 分 析 的 结果 是 一 组 指定 商品 之 间 关 系 模式 的 关联 规则 (association rule ) 。 
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一 个 典型 的 规则 可 以 表述 为 如 下 的 形式 : 
{ 花生 着 ， 果 冻 } 一 { 面包 } 

这 个 关联 规则 用 通俗 易 懂 的 语言 来 表达 就 是 : 如 果 购 买 了 花生 桨 ( peanut butter) 和 果冻 
(jelly)， 那 么 也 很 有 可 能 会 购买 面包 (bread)。 换 名 话说， 即 “花生 浆 和 果冻 意味 着 面包 ”。 
大 括号 内 的 一 件 商品 或 者 多 件 商 品 的 组 合 表示 它们 构成 一 个 集合 ， 或 者 更 确切 地 说 ， 就 是 出 
现在 具有 某 种 规律 性 的 数据 中 的 项 集 ( itemset)。 关 联 规则 是 根据 项 集 的 子 集 研 究 得 到 的 ， 例 
如 ， 上 述 规 则 就 是 由 集合 { 花生酱， 果冻， 面包 } 确定 的 。 

基于 大 数据 和 数据 库 科 学 背景 下 的 研究 ， 关 联 规则 与 前 面 章 节 中 所 呈现 的 分 类 算法 和 数 
值 预测 算法 不 同 ， 它 不 能 用 来 进行 预测 ， 但 可 以 用 于 无 监督 的 知识 发 现 。 即 便 如 此 ， 你 将 发 
现 关联 规则 学 习 与 第 5 章 中 的 分 类 规则 学 习 有 密切 的 联系 并 且 有 许多 共同 的 特征 。 

因为 关联 规则 学 习 是 无 监督 的 ， 所 以 不 需要 训练 算法 ， 也 不 需要 提前 标记 数据 。 基 于 数 
据 集 ， 就 可 以 简单 地 运行 程序 ， 和 希望 探寻 到 令 人 感 兴趣 的 关联 。 当 然 ， 不 利 的 一 面 就 是 除了 
用 从 定性 角度 来 衡量 它们 的 可 用 性 外 (通常 是 某 种 形式 的 目测 法 来 对 它们 进行 评估 )， 没 有 一 
个 简单 的 方法 来 客观 地 衡量 一 个 规则 学 习 算 法 的 性 能 。 

虽然 关联 规则 最 常用 于 (市场) 购物 篮 分 析 ， 但 是 它们 对 于 发 现 许多 不 同类 型 数据 的 模 
式 是 有 帮助 的 。 其 他 的 潜在 应 用 包括 : 

口 在 癌症 数据 分 析 中 ， 搜 寻 DNA 和 和 蛋白 质 序列 的 有 趣 且 频繁 出 现 的 模式 。 

口 查找 发 生 在 与 信用 卡 欺诈 或 者 保险 应 用 相 结 合 的 购物 或 者 医疗 津贴 的 模式 。 

口 确认 导致 客户 放弃 他 们 的 移动 电话 服务 或 者 升级 他 们 的 有 线 电视 服务 套餐 的 行为 

组 合 。 

关联 规则 用 来 搜索 大 量变 量 之 间 的 有 趣 联 系 。 人 类 具有 这 种 相当 直观 的 洞察 力 ， 但 往往 
需要 专家 水 平 的 知识 或 者 大 量 的 经 验 来 以 便 可 以 在 几 分 钟 甚至 几 秒 内 实现 规则 学 习 算法 。 此 
外 ， 有 些 数据 过 于 庞大 而 复杂 ， 人 类 要 找到 它们 之 间 的 联系 就 如 同 大 海 捞 针 . 


用 于 关联 规则 学 习 的 Apriori 算法 

由 于 事务 型 数据 的 复杂 性 ， 使 得 关联 规则 挖掘 在 很 大 程度 上 对 于 计算 机 和 人 类 同样 是 一 
项 具有 挑战 性 的 任务 。 事 务 型 数据 集 通常 是 非常 庞大 的 ， 无论 是 在 交易 的 数量 方面 ， 还 是 在 
被 监测 的 特征 〈 即 商品 ) 数量 方面 。 增 加 难度 的 是 潜在 的 项 集 数 量 随 着 特征 的 数量 呈 指 数 增 
长 ， 给 定 k 个 项 ， 可 以 出 现在 集合 中 ， 也 可 以 不 出 现在 集合 中 ， 大 约 有 2 从 个 可 能 的 项 集 必 
须 用 于 规则 的 搜索 。 某 零售 商 仅 销 售 100 种 不 同 的 商品 ， 大 约 就 会 有 2^100 = 1e+30 个 项 集 
需要 学 习 算 法 来 进行 评估 一 一 一 个 看 似 不 可 能 完成 的 任务 。 

一 个 灵敏 的 规则 学 习 算法 利用 了 这 样 一 个 事实 : 在 现实 中 ,许多 潜在 的 商品 组 合 极 少 ， 
如 果 有 ， 就 在 实践 中 发 现 ， 而 不 是 一 个 接 一 个 地 评估 这 些 项 集中 的 每 个 元 素 。 例 如 ， 尽 管 
一 个 商店 同时 销售 汽车 产品 和 妇女 的 化 妆 品 ， 但 是 集合 { 机 油 , 口红 } 很 有 可 能 是 极其 罕见 
的 。 通 过 忽略 这 些 罕 见 (并 且 因 此 可 能 不 太 重 要 ) 的 组 合 ， 就 可 以 限制 规则 的 搜索 范围 ， 从 


wwaibbt.com DODDDODDOD 


174 *%* 机 器 学 习 与 R 语 言 


而 更 容易 管理 项 集 的 规模 。 

为 了 减少 需要 搜索 的 项 集 数 ， 确 定 启发 式 算法 的 大 部 分 工作 已 经 完成 。 或 许 用 规则 高 
效 地 搜索 大 型 数据 库 的 最 广泛 使 用 的 方法 就 称 为 Apriori 算法 ， 该 算法 由 R. Agrawal 和 RR. 
Srikant 在 1994 年 提出 ， 并 自 此 成 为 与 关联 规则 学 习 有 关 的 代名词 。 该 名 称 源 自 这 样 一 个 事 
实 ， 即 该 算法 利用 了 关于 频繁 项 集 性 质 的 一 个 简单 的 先 验 信念 

在 进入 该 算法 之 前 ， 值 得 注意 的 是 ， 该 算法 与 其 他 的 学 习 算 法 一 样 , 也 有 上 月 身 的 优点 和 
缺点 。 其 中 的 一 些 优 缺 点 列举 如 下 : 



















对 于 小 的 数据 集 不 是 很 有 帮助 
e 需要 努力 地 将 对 数据 的 洞察 和 常识 区 分 开 
容易 从 随机 模式 得 出 虚假 的 结论 


e 非常 适合 处 理 极其 大 量 的 事务 型 数据 
. 0 bh 的 结果 很 容易 理解 
e 对 于 “数据 挖 据 ” 和 发 现 数据 库 中 意外 的 知识 很 有 用 


正如 前 面 所 提 到 的 ，Apriori 算法 采用 一 个 简单 的 先 验 信念 作为 准则 (指引 ) 来 减少 关 
联 规则 的 搜索 空间 : 一 个 频繁 项 集 的 所 有 子 集 必须 也 是 频繁 的 。 此 启发 式 称 为 Apriori 性 质 
(Apriori property)。 通 过 这 种 敏锐 的 观察 ， 能 够 显著 地 限制 搜索 规则 的 次 数 。 例 如 ， 如 果 集 合 
{ 机 油 ， re 当 且 仅 当 { 机油 } 和 {口红 } 同 时 频繁 地 发 生 。 因 此 ， 如 果 机 油 
或 者 口红 中 只 要 有 一 个 是 非 频 繁 的 ， 那么 任意 一 个 含有 这 两 项 的 集合 都 可 以 从 搜索 中 排除 。 


有 关 Apriori 算法 的 详细 信息 ， 请 参考 : Fast algorithms for mining association 
SE《 a 。 
% ~ rule, in Proceedings of the 20™ International Conference on Very Large 
Databases, pp. 487-499, by R. Agrawal, and R.Srikant, (1994)。 


为 了 了 解 这 一 原理 在 更 真实 的 环境 中 是 如 何 应 用 的 ， 我 们 考虑 一 个 简单 的 交易 数据 库 。 
下 表 给 出 了 在 一 个 虚构 的 医院 礼品 店 已 完成 的 5 项 交易 : 


交易 号 购买 的 商品 

{ 鲜花， 慰问 卡 ， 苏 打 水 } 

{ 毛 绒 玩具 熊 ， 鲜 花 ， 气球， 单独 包装 的 块 状 糖 } 
{慰问 卡 ， 单独 包装 的 块 状 糖 ， 鲜 花 } 

{ 毛 绒 玩 具 能 ， 气 球 ， 苏 打 水 } 

{ 鲜花 ， 怀 问 卡 ， 苏 打 水 } 


通过 查看 购物 集合 ， 可 以 推断 有 两 种 典型 的 购买 模式 。 探 望 生病 的 朋友 或 者 家 人 的 人 ， 
往往 会 买 一 张 慎 问 卡 和 气球， 而 探望 刚 生 孩子 的 母亲 的 人 会 买 毛 绒 玩具 能 和 和 气球。 这 样 的 模 
式 是 值得 注意 的 ， 因 为 它们 的 频繁 出 现 足以 引起 我 们 的 兴趣 。 我 们 简单 地 运用 一 点 儿 逻 辑 和 
与 该 主题 有 关 的 经 验 就 可 以 解释 这 个 规则 。 

Apriori 算法 以 类 似 的 方式 应 用 一 个 项 集 的 “趣味 性 ”统计 方法 来 找 出 更 大 的 交易 数据 
库 中 的 关联 规则 。 在 下 面 的 几 节 中 ， 我 们 将 会 发 现 Apriori 如 何 计算 这 些 令 人 感 兴趣 的 方法 ， 
以 及 它们 如 何 结合 Apriori 性 质 来 减少 规则 学 习 的 次 数 。 


内 | 大 | 一 
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1. 度量 规则 兴趣 度 一 一 支持 度 和 置信 度 

关联 规则 是 否 是 令 人 感 兴趣 的 ， 取 决 于 两 个 统计 量 : 支持 度 和 置信 度 。 通 过 为 这 些 度量 
的 每 一 个 量 提供 最 小 的 阔 值 并 应 用 Apriori 原则 ， 很 容易 大 幅度 地 限制 报告 的 规则 数 ， 甚 至 
可 能 会 达到 只 有 明显 的 规则 或 者 常理 规则 。 为 此 ， 仔 细 理 解 被 排除 在 这 些 准则 之 外 的 规则 类 
型 是 很 重要 的 。 

一 个 项 集 或 者 规则 度量 法 的 支持 度 (support) 是 指 其 在 数据 中 出 现 的 频率 。 例 如 ， 如 前 
所 述 ， 项 集 { 慰问 卡 六 鲜花} 在 医院 礼品 店 数据 中 的 支持 度 为 3/5=0.6。 类 似 地 ，f{ 是 问 
卡 } 一 {鲜花 } 的 支持 度 也 是 0.6。 任 何 项 集 的 支持 度 都 可 以 计算 ， 甚 至 是 一 个 单元 素 的 项 
集 。 例 如 ， 因 为 单独 包装 的 块 状 糖 在 购物 中 出 现 的 频率 为 40%， 所 以 ，{ 单独 包装 的 块 状 糖 } 
的 支持 度 为 2/5=0.4。 定 义 项 集 钱 的 支持 度 的 函数 可 定义 为 : 

spont y= tl) 
其 中 ，N 表示 数据 库 中 的 交易 次 数 ，count(X) 表示 项 集 站 出 现在 交易 中 的 次 数 。 

规则 的 置信 和 度 (confidence) 是 指 该 规则 的 预测 能 力 或 者 准确 度 的 度量 ， 它 定义 为 同时 包 
含 项 集 XX 和 项 集 了 的 支持 度 与 只 包含 项 集 XX 的 支持 度 的 商 : 
support (X,Y) 

support (X) 


从 本 质 上 讲 ， 置 信和 度 表示 交易 中 项 或 者 项 集 XX 的 出 现 导 致 项 或 者 项 集 Y 出现 的 比例 。 请 
记 住 ，X 导致 了 的 置信 度 与 ”导致 的 置信 和 度 是 不 一 样 的。 例如 ，{ 鲜花 }->{ 慰问 卡 } 的 置 
信 度 为 0.6/0.8=0.75， 而 相 比 之 下 ，{ 慰问 卡 }->{ 鲜花 } 的 置信 度 为 0.6/0.6=1.0。 这 意味 着 
涉及 鲜花 的 一 次 购买 中 同时 伴随 着 慰问 卡 购买 的 结果 是 73% ， 而 慰问 卡 的 一 次 购买 中 同时 购 
买 鲜花 的 相关 度 为 100%-。 这 条 信息 对 于 该 礼品 店 的 经 营 或 许 会 相当 有 用 。 

你 可 能 已 经 注意 到 支持 度 、 置 信 度 与 第 4 章 介绍 的 贝 叶 斯 概率 规则 的 相似 
之 处 。 事 实 上 ，support (4,B) 与 P (4 nmB) 是 一 样 的 ，confidence (4 一 B) 
与 P(B | 4) 是 一 样 的 ， 只 是 上 下 文 不 同 而 已 。 


confidence(X 一 了 ) = 


AS 


by 


像 { 奈 问 卡 }->{ 鲜花 } 这样 的 规则 称 为 强 规则 ( strong rule)， 因 为 它们 同时 具有 高 支持 
度 和 置信 和 度 。 发 现 更 多 强 规 则 的 一 种 方法 就 是 检查 礼品 店 中 的 每 一 个 可 能 的 商品 组 合 ， 测 量 
支持 度 和 置信 和 度 ， 并 只 报告 那些 满足 某 种 兴趣 水 平 的 规则 。 然 而 ， 正 如 前 面 指 出 的 ， 这 种 策 
略 除了 最 小 的 数据 集 以 外 ， 一 般 是 不 可 行 的 。 

在 下 一 节 中 ， 你 将 看 到 Apriori 算法 如 何 使 用 基于 Apriori 原则 的 最 低 水 平 的 支持 度 和 置 
信和 度 ， 通 过 减少 规则 的 数量 来 迅速 找到 强 规 则 ， 以 达到 一 个 更 便于 管理 的 水 平 。 


2. 用 Apriori 原则 建立 规则 


回想 一 下 ，Apriori 原则 指 的 是 一 个 频繁 项 集 的 所 有 子 集 也 必须 是 频繁 的 。 换 句 话 说 ， 如 
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果 {4, B} 是 频繁 的 ， 那么 {4} 和 {8} 都 必须 是 频繁 的 。 还 记得 ， 根 据 定义 ， 支 持 度 表示 一 个 
项 集 出 现在 数据 中 的 频率 。 因 此 ， 如 果 知 道 {4} 不 满足 所 期 望 的 支持 度 闪 值 ， 那 么 就 没有 理 
由 考虑 {4, B} 或 者 任何 包含 {4} 的 项 集 ， 这 些 项 集 绝 不 可 能 是 频繁 的 。 

Apriori 算法 利用 这 个 逻辑 在 实际 评估 它们 之 前 排除 潜在 的 关联 规则 ， 创 建 规则 的 实际 过 
程 分 为 两 个 阶段 : 

口 识别 所 有 满足 最 小 支持 度 靖 值 的 项 集 。 

口 根据 满足 最 小 置信 和 度 阔 值 的 这 些 项 集 来 创建 规则 。 

第 一 阶段 发 生 于 多 次 迭代 中 ， 每 次 连续 的 迭代 都 需要 评估 存储 一 组 越 来 越 大 项 集 的 支持 
度 。 例 如 ， 和 迭代 1 需要 评估 一 组 1 项 的 项 集 ( 1 项 集 )， 迭 代 2 评 估 2 项 集 ， 以 此 类 推 。 每 个 
迭代 i 的 结果 是 一 组 所 有 满足 最 小 支持 度 贱 值 的 i 项 集 。 

由 适 代 i 得 到 的 所 有 项 集结 合 在 一 起 以 便 生成 候选 项 集 用 于 在 迭代 i + 1 中 进行 评估 。 但 
是 Apriori 原则 甚至 可 以 在 下 一 轮 开 始 之 前 消除 其 中 的 一 些 项 集 。 如 果 在 迭代 1 中 ，{4}、{B} 
和 {C} 都 是 频繁 的 ， 而 {D} 不 是 频繁 的 ， 那 么 在 迭代 2 中 将 只 考虑 {4, B} 、{4, C} 和 {B,C}。 
因此 ， 该 算法 仅 需 要 评估 3 个 项 集 ， 而 如 果 包 含 D 的 项 集 没有 在 事先 (a priori) 消除 掉 ， 那 
么 就 需要 评估 6 个 项 集 。 

保持 这 个 想法 ,假设 在 迭代 2 过 程 中 发 现 {4, B} 和 {8B, C} 是 频繁 的 ， 而 {4, C} 不 是 频 
繁 的 ， 尽 管 迭代 3 通常 会 从 评估 {4, 8B, C} 的 支持 度 开 始 ， 但 是 这 一 步 根本 没有 发 生 的 必要 。 
为 什么 可 以 不 发 生 呢 ? 因为 子 集 {4, C} 不 是 频繁 的 ， 所 以 Apriori 原则 指出 {4, B, C} 绝 不 可 
能 是 频繁 的 。 因 此 ， 在 迭代 3 中 就 没有 生成 新 的 项 集 ， 算 法 将 停止 。 

此 时 ，Apriori 算法 的 第 二 阶段 将 会 开始 。 给 定 一 组 频繁 项 集 ， 根 据 所 有 可 能 的 子 集 产生 
关联 规则 。 例 如 ，{4, B} 将 产生 候选 规则 {4}->{B} 和 1B}->{dj。 这 些 规则 将 根据 最 小 置信 
度 国 值 评 估 ， 任 何不 满足 所 期 望 的 置信 和 度 的 规则 将 被 消除 。 


8.2 ”例子 一 一 用 关联 规则 确定 经 常 一 起 购买 的 食品 杂货 


正如 本 章 引 言 中 所 指出 的 ，( 市 场 ) 购物 篮 分 析 用 于 许多 实体 商店 和 在 线 零 售 商 的 后 台 推 
荐 系统 。 关 联 规则 学 习 表 明 经 常 一 起 购买 的 商品 组 合 在 一 个 集合 中 。 所 学 到 的 知识 或 许可 能 
会 为 一 家 杂货 连锁 店 优化 库存 、 宣 传 促销 活动 或 者 整理 店内 的 实际 布局 提供 新 的 洞察 力 。 例 
如 ， 如 果 购 物 者 经 常 在 购买 咖啡 或 者 橙汁 时 ， 顺 便 购买 一 份 早餐 糕点 ， 那 么 为 了 增加 利润， 
商店 就 很 有 可 能 将 糕点 重新 放置 到 离 咖啡 与 果汁 更 近 的 地 方 。 

在 本 书 中 ,我 们 将 根据 一 家 杂货 店 的 事务 型 数据 进行 一 次 (市场 ) 购物 篮 分 析 。 然 而 ， 
该 技术 可 以 运用 于 许多 不 同类 型 的 问题 ， 从 电影 推荐 ， 到 约会 地 点 ， 到 寻找 药物 之 间 相 互 作 
用 的 危险 。 这 样 做 ,我 们 将 会 看 到 Apriori 算法 如 何 能 够 有 效 地 评估 潜在 的 大 量 关联 规则 。 


8.2.1 第 1 步 一 一 收集 数据 
我 们 的 (市场 ) 购物 篮 分 析 将 利用 来 自 一 个 现实 世界 中 的 超市 经 营 一 个 月 的 购物 数据 。 
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该 数据 包含 了 9835 次 交易 ， 大 约 每 天 327 次 交易 (在 12 小 时 的 工作 日 内 ， 大 约 每 小 时 交易 
30 次 )， 这 表明 该 零售 商 不 是 特别 大 ， 也 不 是 特别 小 。 


这 里 所 用 的 数据 改编 自 Apriori R 添加 包 中 Groceries 数据 集 。 有 关 数 据 
、 集 更 多 的 信息 ， 请 参阅 : Implications of probabilistic data modeling for mining 
< ~ association rules, in Studies in Classification, Data Analysis, and Knowledge 
Organization: from Data and Information Analysis to Knowledge Engineering, 

pp. 598—605, by M. Hahsler, K. Hornik, and T. Reutterer, (2006), 


在 一 个 具有 代表 性 的 超市 中 ， 有 大 量 不 同 的 商品 。 可 能 有 5 种 品牌 的 牛奶 ， 一 打 不 同类 
型 的 衣物 洗涤 剂 和 3 种 品牌 的 咖啡 。 鉴 于 零售 商 的 大 小 适中 ， 假 定 他 们 不 是 非常 关注 寻找 只 
应 用 于 特定 品牌 的 牛奶 或 者 洗涤 剂 的 规则 。 考 虑 到 这 一 点 ， 所 有 的 品牌 名 称 就 可 以 从 购买 数 
据 中 去 除 。 这 将 食品 杂货 的 数量 减少 到 更 易于 管理 的 169 个 类 型 ,采用 大 类 ， 比 如 鸡肉 、 冷 
冻 食 品 、 人 造 黄油 和 汽水 。 

如 果 你 希望 找 出 特别 具体 的 关联 规则 (如 顾客 更 喜欢 带 有 他 们 花生 普 的 葡萄 
果冻 还 是 草花 果冻， 你 需要 大 量 的 事务 型 数据 。 大 规模 的 连锁 零售 商 使 用 数 
以 百 万 计 的 交易 数据 库 ， 以 便 发 现 特定 品牌 、 颜 色 或 者 风格 商品 之 间 的 关联 。 


对 于 哪 种 类 型 的 商品 有 可 能 一 起 购买 ， 你 有 一 些 猜测 吗 ?” 葡萄 酒 和 奶 酷 是 一 种 常见 的 搭 
配 吗 ? 面包 和 黄油 ? 茶 和 蜂蜜 ? 让 我 们 来 深入 挖掘 数据 ， 看 看 是 否 可 以 证 实 我 们 的 猜测 。 


8.2.2 ”第 2 步 一 一 探索 和 准备 数据 

事务 型 数据 与 我 们 之 前 已 经 使 用 过 的 数据 集 不 一 样 ， 它 的 存储 形式 稍微 有 点 儿 不 同 。 我 
们 之 前 的 大 部 分 分 析 所 采用 的 数据 都 是 矩阵 形式 ， 其 中 ， 行 表示 实例 (案例 )， 列 表示 特征 。 
给 定 矩 阵 格式 的 结构 后 ， 所 有 的 实例 (案例 ) 都 要 求 具有 完全 相同 的 特征 集 。 

相 比 较 而 言 ， 事 务 型 数据 的 形式 更 自由 。 与 往常 一 样 ， 数 据 中 的 每 一 行 指定 一 个 单一 的 
实例 (案例 ) 一 一 在 本 例 中 ， 为 一 次 交易 。 人 然而， 每 条 记录 包括 用 逗号 隔 开 的 任意 数量 的 产 
品 清单 ， 从 一 到 许多 ， 而 不 是 一 组 特征 。 从 本 质 上 讲 ， 就 是 实例 (案例 ) 之 间 的 特征 可 能 是 
不 同 的 。 


~ 为 了 继续 这 样 的 分 析 ， 你 需要 从 Packt 出 版 社 的 网 站 下 载 groceries.csv 
文件 ， 并 将 该 文件 保存 到 你 的 R 的 工作 目录 中 ， 


原始 的 groceries .csv 数据 的 前 5 行 如 下 所 示 : 


citrus fruit,semi-finished bread,margarine,ready soups 

tropical fruit,yogurt, coffee 

whole milk 

pip fruit,yogurt,cream cheese,meat spreads 

other vegetables,whole milk,condensed milk,]long life bakery product 
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这 些 行 表示 5 次 独立 的 超市 交易 。 第 一 次 交易 包括 4 种 商品 : citrus fruit (柑橘 类 水 果 小 
semi-finished bread (半成品 面包 )、 margarine ( 人造 黄油 ) 和 ready soups (即食 汤 )， 作 为 对 比 ， 
第 三 次 交易 只 包括 1 种 商品 : whole milk (全 脂 牛 奶 ). 

假设 我 们 尝试 使 用 函数 read .csv() 加 载 数据 ， 与 之 前 分 析 所 做 的 一 样 。R 将 顺畅 地 
读 入 一 个 矩阵 形式 的 数据 ， 如 下 表 所 示 : 
eh me i | 
mm mi | wm am | 
am | yen | | 
wm | | 
| ppmil OO | yem | oreamcheest | meatspreads 
other vegetables condensed milk 


你 将 注意 到 R 创建 了 4 个 变量 来 存储 事务 型 数据 中 的 项 : V1、V2、V3 和 V4。 虽然 R 做 
到 这 一 点 很 好 ， 但 是 如 果 我 们 使 用 这 样 的 数据 ， 之 后 我 们 将 会 遇 到 问题 。 首先 ，R 之 所 以 选择 
创建 4 个 变量 ， 是 因为 第 一 行 恰好 有 4 个 逗号 分 隔 开 的 值 。 但 是 我 们 知道 杂货 的 购买 可 以 包含 
4 种 以 上 的 商品 ， 而 这 些 交易 将 不 幸 地 被 分 解 到 矩阵 的 多 个 行 中 。 我 们 可 以 尝试 通过 将 具有 商 
品 数量 最 多 的 交易 放 到 文件 的 项 部 来 解决 这 个 问题 但 是 这 忽略 了 另 一 个 更 棘手 的 问题 。 

该 问题 是 由 于 通过 这 种 方式 构造 数据 产生 的 ， 因 为 R 已 经 构建 了 一 组 特征 ， 这 些 特征 不 
仅 记录 交易 中 的 商品 ， 还 记录 这 些 商 品 出 现 的 顺序 。 如 果 我 们 设想 我 们 的 学 习 算 法 是 为 了 试 
图 找到 V1、V2、V3 和 V4 之 间 的 关系 ， 那 么 出 现在 V1 中 的 whole milk (全 脂 牛 奶 ) 与 出 现 
在 V2 中 的 whole milk (全 脂 牛 奶 ) 可 能 有 不 同 的 处 理 。 相 反 ， 我 们 需要 一 个 数据 集 ， 该 数据 
集 不 会 将 一 次 交易 作为 一 组 用 具体 商品 来 填充 (或 者 不 填充 ) 的 位 置 ， 而 是 作为 一 个 要 么 包 
含 要 么 不 包含 每 种 特定 商品 的 市 场 购物 篮 















1. 数据 准备 一 一 为 交易 数据 创建 一 个 稀 琉 矩阵 


解决 此 问题 采用 了 一 个 称 为 稀 朴 矩阵 ( sparse matrix) 的 数据 结构 (你 可 能 还 记得 在 第 4 
草 中 ,我 们 使 用 了 一 个 稀 蚊 矩阵 来 处 理 文本 数据 )。 类 似 于 前 面 的 数据 集 ， 稀 跑 矩阵 的 每 一 
行 表示 一 次 交易 ， 用 列 ( 即 特征 ) 表示 可 能 出 现在 消费 者 购物 篮 中 的 每 一 件 商品 。 因 为 在 我 
们 的 杂货 店 数据 中 有 169 类 不 同 的 商品 ， 所 以 我 们 的 稀 朴 矩阵 将 包含 169 列 

为 什么 不 像 我 们 在 大 多 数 分 析 中 所 做 的 那样 ， 将 其 存储 为 一 个 数据 框 呢 ? 其 原因 就 是 ， 
一 旦 增加 额外 的 交易 和 商品 ， 传 统 的 数据 结构 很 快 就 会 变 得 过 大 而 导致 内 存 不 足 。 即 使 这 里 
使 用 的 事务 型 数据 集 相 对 较 小 ， 但 是 矩阵 包含 了 将 近 170 万 个 单元 (元 素 )， 其 中 大 部 分 单元 
(元 素 ) 为 零 (因此 命名 为 “稀疏 ”和 拖 阵 )。 因 为 存储 的 所 有 这 些 零 值 没有 益处 ， 所 以 稀 朴 矩 
阵 实 际 上 在 内 存 中 没有 存储 完整 的 矩阵 ， 只 是 存储 了 由 一 个 商品 所 占用 的 单元 (元 素 )， 这 使 
得 该 结构 的 内 存 效 率 比 一 个 大 小 相当 的 矩阵 或 者 数据 框 的 内 存 效率 更 高 。 

为 了 根据 事务 型 数据 创建 稀疏 矩阵 的 数据 结构 ， 可 以 使 用 由 关联 规则 (arules) 添加 
包 提 供 的 函数 。 使 用 命令 install .packages ("arules") 与 命令 library (arules) 
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安装 和 加 载 添加 包 ， 


关于 arules 添加 包 更 多 的 信息 ， 请 参考 : arules -- A computational environment 
_ for mining association rules and frequent item sets, Journal of Statistical Software 
Vol. 14 by M. Hahsler, B. Gruen, and K. Hornik, (2005), 


hp 


我 们 将 采用 类 似 于 read.csv() 的 read.transactions() 国 数 ， 该 图 数 可 以 产生 
一 个 适用 于 事务 型 数据 的 稀 跑 和 矩阵 ， 而 read .csv() 因数 则 不 能 。 参 数 sep="," 指定 输入 
到 文件 中 的 项 之 间 用 逗号 隔 开 -为 了 将 groceries .csv 数据 读 人 到 一 个 名 为 groceries 
的 稀 跑 和 矩阵 中 ， 请 输入 : 

> groceries <- read.transactions ("groceries.csv'", sep = ",") 

如 果 想 查看 我 们 刚刚 创建 的 groceries 数据 集 的 一 些 基本 信息 ， 可 对 该 对 象 使 用 
summary () 因数 : 


> summary (groceries) 

transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 0.02609146 


输出 信息 中 的 第 一 块 (如 上 所 示 ) 提供 了 一 个 我 们 创建 的 稀 朴 矩阵 的 概要 。9835rows 指 
的 是 商店 的 交易 ，169columns 指 的 是 可 能 出 现在 消费 者 购物 篮 中 的 169 类 不 同 商品 的 每 一 
类 的 特征 。 如 果 在 相对 应 的 交易 中 ， 该 商品 被 购买 了 ， 则 矩阵 中 的 该 单元 格 为 1， 否则 为 0 

密度 (density) 值 0.026 091 46 (2.6%) 指 的 是 非 零 矩阵 单元 的 比例 。 因 为 矩阵 中 
有 9835 x 169=1 662 115 个 位 置 ， 所 以 可 以 计算 在 商店 经 营 的 30 天 内 ,共有 1 662 115 x 
0.260 914 6=43367 件 商 品 被 购买 (假设 没有 重复 的 商品 被 购买 )。 进 一 步 ， 我 们 可 以 确定 平 
均 交 易 包含 了 43367/9835=4.409 种 不 同 的 杂货 商品 (当然 ， 如 果 我 们 多 往 下 看 一 看 输出 信 
息 ， 我 们 将 会 看 到 ， 该 结果 已 经 为 我 们 计算 好 了 )。 

summary () 输出 的 下 一 块 (如 下 所 示 ) 列 出 了 事务 型 数据 中 最 常 购买 的 商品 。 因 为 
2513/9835=0.2555， 所 以 我 们 可 以 确定 whole milk( 全 脂 牛 奶 ) 有 25.6% 的 概率 出 现在 交易 中 ， 
位 于 清单 上 的 其 他 常见 商品 有 other vegetables (其 他 蔬菜 )、rolls/buns (面包 / 馒头 )、soda ( 汽 
水 ) 和 yogurt (酸奶 )。 


most frequent items: 


whole milk other vegetables rolls/buns 
2513 1903 1809 
soda yogurt (Other) 
1715. 3 34055 


最 后 ， 它 为 我 们 呈现 了 一 组 关于 交易 规模 的 统计 。 总 共有 2159 次 交易 只 包含 一 件 单一 
的 商品 ， 而 有 一 次 交易 包含 了 32 类 商品 ， 第 一 四 分 位 数 和 中 位 数 的 购买 规模 分 别 为 2 类 商 
品 和 3 类 商品 ， 这 意味 着 25% 的 交易 包含 了 两 件 或 者 更 少 的 商品 ， 大 约 一 半 的 交易 中 的 商品 
数 在 3 类 左右 ,均值 4.409 与 我 们 手动 计算 的 值 是 一 致 的 。 
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element (itemset/transaction) length distribution: 
sizes 
1 2 3 4 所 6 7 8 9 10 kp | 
2159 1643 1299 1005 855 ‘645 545 438 350 .246 182 117 
413 14 13 16 开学 18 9 20 21 22 还 24 
78 生机 与 与 46 29 14 14 9 11 4 6 1 
26 27 28 有 22 32 
T 或 1 3 1 


Min. lst Qu. Median Mean 3rd Qu. Max . 
1.000 2.000 3.000 4.409 6.000 32.000 


arules () 添加 包 包 含 了 一 些 用 于 检查 交易 数据 的 有 用 功能 。 使 用 inspect () 函数 与 
向 量 运 算 的 组 合 ， 可 以 查看 稀 朴 矩阵 的 内 容 。 前 5 项 交易 如 下 所 示 : 


> inspect (groceries [1:5]) 
items 

1 {eitrus frait, 
margarine, 
ready soups, 
semi-finished bread} 

2 {coffee, 
tropical £ruit, 
yogurt} 

3 {whole milk} 

4 {cream cheese, 
meat spreads, 
pip fruit, 
yogurt} 

5 {condensed milk, 
long life bakery product, 
other vegetables, 
whole milk} 


这 些 交 易 符合 我 们 所 查看 的 原始 CSV 文件 。 若 要 研究 一 件 特定 的 商品 ( 即 一 列 数据 )， 
可 以 使 用 row，olumn 和 矩阵 概念 。 同 时 与 itemFrequency () 函数 一 起 使 用 ， 我 们 可 以 看 
到 包含 该 商品 的 交易 比例 。 例 如 ， 这 使 得 我 们 可 以 看 到 groceries 数据 中 前 3 件 商品 的 支 
持 度 : 


> itemFrequency (groceries[, 1:3]) 
abrasive cleaner artif. sweetener baby cosmetics 
0.0035587189 0.0032536858 0.0006100661 


注意 ， 稀 玖 矩阵 中 商品 所 在 的 列 是 按 字母 表 的 顺序 排序 的 。abrasive cleaner (擦洗 剂 ) 和 
artif. sweetener( 人 造 甜 味 剂 ) 大 约 以 0.3% 的 比例 出 现在 交易 中 ， 而 baby cosmetics( 婴儿 用 品 ) 
大 约 以 0.06% 的 比例 出 现在 交易 中 。 


2. 可 视 化 商品 的 支持 度 一 一 商品 的 频率 图 
为 了 直观 地 呈现 这 些 统计 数据 ， 可 使 用 itemFrequencyPlot () 函数 ， 这 可 以 让 你 
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生成 一 个 用 于 描绘 所 包含 的 特定 商品 的 交易 比例 的 柱状 图 。 因 为 事务 型 数据 包含 了 非常 多 的 
项 ， 所 以 你 将 时 常 需要 限制 出 现在 图 中 的 项 ， 以 便 产 生 一 幅 清晰 的 图 。 

如 果 你 希望 获得 那些 出 现在 最 小 交易 比例 中 的 商品 ,那么 可 以 在 itemFrequencyPlot () 
函数 中 运用 support 参数 : 


> itemFrequencyPlot (groceries, support = 0.1) 


如 下 图 所 示 ， 这 生成 了 一 个 直方 图 ， 显 示 了 groceries 数据 中 支持 度 至 少 为 10% 的 8 


可 
类 商 HHo 
一 
中 
这 
总 
总 二 
人 Fe: 
名 S 
vo 
二 
名 
[| 
兰 ° WF NS ER Ng 
A RR 
se 9 Ry BS Rs 
ES 区 ES 区 Ey RS 
中 (oy 全 < 
SS < 


如 果 你 更 愿意 限制 图 中 商品 的 具体 数量 ， 那 么 可 以 在 itemFrequencyPlot () 函数 中 
使 用 topN 参数 ; 
> itemFrequencyPlot (groceries, topN = 20) 


后 直方 图 根据 支持 度 降序 排列 ， 下 图 显示 了 groceries 数据 中 的 前 20 类 商品 : 
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3. 可 视 化 交易 数据 一 一 绘制 稀 慌 矩阵 
除了 可 视 化 商品 ， 也 可 以 可 视 化 整个 稀 朴 矩阵 。 要 做 到 这 一 点 ， 需 要 使 用 image () 函 
数 。 前 5 次 交易 的 稀 朴 矩阵 如 下 : 


> image (groceries[1:5]) 


生成 的 图 描绘 了 一 个 5 行 169 列 的 和 矩阵， 表示 我 们 要 求 的 5 次 交易 和 169 类 可 能 的 商 
,矩阵 中 填充 有 黑色 的 单元 表示 在 此 次 交易 ( 行 ) 中 ,该 商品 ( 列 ) 被 购买 了 。 


于 
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50 Pe 100 150 
Dimensions:Sx169 

尽管 这 个 图 形 很 小 ， 阅 读 起 来 会 稍微 有 些 困 难 ， 但 是 你 可 以 看 到 第 一 次 、 第 四 次 和 第 
五 次 交易 各 包含 了 4 类 商品 ， 因 为 它们 所 在 的 行 有 4 个 单元 被 填充 了 。 你 也 可 以 看 到 在 第 三 
行 、 第 五 行 、 第 二 行 和 第 四 行 有 一 类 共同 的 商品 (在 图 的 右 侧 )。 

这 种 可 视 化 是 用 于 探索 数据 的 一 种 很 有 用 的 工具 。 一 方面 ， 它 可 能 有 助 于 识别 潜在 的 数 
据 问题 。 列 从 上 往 下 一 直 被 填充 可 能 表明 这 些 商品 在 每 一 次 交易 中 都 被 购买 了 一 一 但 如 果 一 
个 零售 商 的 名 称 或 者 它们 的 标识 号 意外 地 包含 在 一 个 数据 集中 ， 或 许 就 会 产生 一 个 问题 。 

男 一 方面 ， 图 中 的 模式 可 能 有 助 于 揭示 交易 或 者 商品 的 有 趣 部 分 ， 特 别 是 当 数 据 以 有 趣 
的 方式 排序 后 。 例 如 ， 如 果 交 易 按 日 期 排序 ， 那 么 黑色 圆 点 的 图 案 可 能 会 揭示 人 们 购买 商品 
的 数量 或 者 类 型 的 季节 性 影响 。 或 许 在 圣诞 节 ( Christmas) 或 者 光明 节 ( Hanukkah) 前 后 ， 
玩具 的 购买 更 常见 ; 或 许 在 万 圣 节 ( Halloween) 前 后 ， 糖 果 变 得 更 受 欢 迎 。 如 果 商 品 也 被 分 
类 ， 那 么 这 种 类 型 的 可 视 化 可 能 会 特别 有 效 。 然 而 ， 在 大 多 数 情况 下 ， 图 形 看 上 去 都 是 相当 
随机 的 ， 就 像 电 视 英 屏 上 的 静电 一 样 。 

请 记 住 这 种 可 视 化 对 于 超大 型 的 交易 数据 集 是 没有 用 的 ， 因 为 单元 会 太 小 而 无 法 辨别 。 
不 过 ， 通 过 将 其 与 sample () 函数 结合 ， 你 可 以 看 到 稀 政 和 矩阵 中 一 组 随机 抽样 的 交易 。 下 
面 看 起 来 像 是 随机 选择 的 100 次 交易 : 


> image (sample (groceries, 100)) 


这 样 就 产生 了 一 个 100 行 169 列 的 矩阵 图 ， 如 下 图 所 示 。 


Row 





Column 
Dimensions:100x169 
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少数 列 的 黑 点 看 起 来 是 相当 稠密 的 ， 表 明 该 商店 里 有 一 些 非常 受 欢 迎 的 商品 ， 但 总 体 来 
说 ， 点 的 分 布 还 是 相当 随机 的 。 鉴 于 没有 其 他 的 说 明 ， 那 么 就 让 我 们 继续 分 析 吧 ，。 


8.2.3 ”第 3 步 一 一 基于 数据 训练 模型 

随 着 数据 准备 工作 的 完成 ， 现 在 我 们 可 以 致力 于 寻找 购物 车 中 商品 之 间 的 关联 。 我 们 将 
使 用 在 探索 和 准备 groceries 数据 中 一 直 使 用 的 arules 添加 包 中 的 Apriori 算法 实现 。 
如 果 你 还 没有 安装 和 加 载 这 个 添加 包 ， 那 么 你 需要 先 安装 和 加 载 该 添加 包 。 下 面 显示 了 用 
apriori () 函数 来 创建 规则 集 的 语法 。 





找 出 关联 规则 : 


myrules <- apriori( data = mydata， 






parameter = list(support = 0.1， 





confidence = 0.8, 





minlen = 1) ) 





e data: 含有 交易 数据 的 稀 玻 矩阵 

e Support: 给 出 要 求 的 最 低 规则 支持 度 

e confidence: 给 出 要 求 的 最 低 规则 置信 度 

e minlen: 给 出 要 求 的 规则 最 低 项 数 

该 函数 将 返回 一 个 满足 最 低 准 则 要 求 的 规则 对 象 。 

检验 关联 规则 : 

inspect (myrules) 

e myrules 是 由 函数 apriori() 函数 给 出 的 一 组 关联 规则 

它 将 输出 关联 规则 到 屏幕 。 可 以 对 myrules 应 用 向 量 运 算 来 选择 查看 一 个 或 者 多 个 特定 的 规则 。 
例子 : 


concrete model <- neuralnet (strength ~ cement + slag + ,ash，data = concrete) 









model _ results <- compute(concrete model, concrete data) 






strength predictions <- model results$net.result 


虽然 运行 apriori () 函数 很 简单 ， 但 是 当 找到 支持 度 和 置信 度 参数 来 产生 合理 数量 的 
关联 规则 时 ， 有 时 候 可 能 需要 进行 大 量 的 试验 与 误差 评估 。 如 果 你 将 这 些 参 数 设置 过 高 ， 那 
么 你 可 能 会 发 现 没 有 规则 或 者 规则 过 于 普通 而 不 是 非常 有 用 。 另 一 方面 ， 靖 值 太 低 可 能 会 导 
致 规则 的 数量 庞大 ， 或 者 更 糟糕 的 是 ， 该 算法 可 能 需要 很 长 的 运行 时 间或 者 在 学 习 阶 段 耗 尽 
内 存 。 

既然 这 样 ， 如 果 我 们 试图 使 用 默认 的 设置 support = 0.1 和 confidence = 0.8， 
我 们 最 终 将 不 能 得 到 任何 规则 : 


> apriori (groceries) 
set of 0 rules 


显然 ， 我们 需要 放宽 一 点 搜索 范围 。 
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如 果 你 仔细 想 想 ， 这 样 的 结果 应 该 就 不 会 那么 令 人 惊奇 。 采 用 值 为 0.1 
~- 少 、 的 默认 支持 度 ， 就 意味 着 为 了 产生 一 个 规则 ， 一 种 商品 必须 至 少 出 现在 
0.1*9835=983.5 次 交易 中 。 而 在 我 们 的 数据 中 ， 只 有 8 类 商品 出 现 得 比较 频 

繁 ， 因 此 我 们 没有 发 现任 何 规 则 也 不 足 为 奇 。 


解决 支持 度 设 定 问题 的 一 种 方法 是 在 考虑 一 个 有 趣 的 模式 之 前 ， 事 先 想 好 需要 的 最 小 交 
易 数 量 。 例 如 ， 你 可 以 认为 如 果 一 种 商品 一 天 被 购买 了 两 次 〈 大 约 60 种 商品 )， 那 么 这 或 许 
值得 考虑 看 看 。 据 此 ， 可 以 计算 所 需要 的 支持 度 ， 至 少 可 以 发 现 仅 与 你 事先 想 好 的 那么 多 次 
交易 相 一 致 的 规则 。 因 为 60/9835=0.006， 所 以 我 们 将 尝试 首先 设 定 支 持 度 为 0.006。 

设 定 最 小 置信 和 度 涉及 一 个 巧妙 的 平衡 。 一 方面 ， 如 果 置 信和 度 太 低 ， 就 可 能 会 被 大 量 不 可 靠 
的 规则 洪 没 (比如 数 10 种 规则 表明 与 电池 一 起 经 常 被 购买 的 商品 )， 那 么 我 们 如 何 知道 广告 预算 
目标 呢 ? 另 一 方面 ， 如 果 将 置信 度 设 置 得 太 高 ， 那 么 我 们 将 会 被 显而易见 或 者 不 可 避免 的 规则 
所 限制 〈 比 如， 烟雾 探测 器 总 是 与 电池 一 起 组 合 购买 的 事实 )。 在 这 种 情况 下 ， 因 为 两 类 商品 几 
乎 总 是 一 起 购买 ， 所 以 将 烟雾 探测 器 移 到 离 电池 更 近 的 地 方 难以 再 产生 额外 的 收入 。 


\， 合适 的 最 小 置信 度 水 平 的 选取 ， 绝 大 部 分 取决 于 你 的 分 析 目标 。 如 果 你 以 保 
以 守 值 开始 时 ， 假 如 你 没有 发 现 具 有 可 行 性 的 规则 ， 那 么 你 总 是 可 以 降低 要 求 
以 拓宽 规则 的 搜索 范围 。 


我 们 将 从 置信 和 度 冰 值 0.25 开始 ， 这 意味 着 为 了 将 规则 包含 在 结果 中 ， 此 时 规则 的 正确 率 
至 少 为 23%。 这 将 消除 最 不 可 靠 的 规则 ， 同 时 为 我 们 有 针对 性 的 营销 修正 行为 (问题 ) 提供 
了 一 些 空间 。 

现在 ， 我 们 准备 生成 一 些 规则 。 除 了 最 小 支持 度 和 置信 和 度 外 ,， 设 定 minlen = 2 有 助 
于 消除 包含 少 于 两 类 商品 的 规则 。 这 可 以 防止 仅仅 是 由 于 某 商品 被 频繁 购买 而 创建 的 无 趣 规 
则 (例如 ，{}》 => whole milk ) 。 此 规则 满足 最 小 支持 度 和 置信 和 度 ， 因 为 whole milk (全 
脂 牛 奶 ) 的 购买 超过 25% 的 交易 ,但 它 不 是 一 个 非常 可 行 的 规则 。 

使 用 Apriori 算法 寻找 一 组 关联 规则 的 完整 命令 如 下 所 示 : 


> groceryrules <- apriori (groceries, parameter = list(support = 
0.006, confidence = 0.25, minlen = 2)) 


该 命令 用 rules 对 象 保存 规则 ， 我 们 可 以 通过 输入 它 的 名 称 来 查看 : 


> groceryrules 
set of 463 rules 


groceryrules 对 象 包含 了 一 组 463 个 关联 规则 。 为 了 确定 它们 是 否 是 有 用 的 ， 我 们 
必须 深入 挖掘。 


8.2.4 第 4 步 一 一 评估 模型 的 性 能 
为 了 获取 高 一 级 关联 规则 的 概览 ， 可 以 使 用 如 下 所 示 的 summary () 。 规 则 的 长 度 分 布 
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(length distribution) 告诉 我 们 按 商品 的 每 一 类 计数 的 规则 有 多 少 。 在 我 们 的 规则 集中 ， 有 150 
个 规则 只 包含 2 类 商品 ， 而 有 297 个 规则 包含 3 类 商品 ， 有 16 个 规则 包含 4 类 商品 ， 而 与 
此 分 布 相 关 的 统计 量 也 给 出 来 了 ， 如 下 所 示 : 


> summary (groceryrules) 
set of 463 rules 


rule length distribution (lhs + rhs):sizes 
2 3 四 
4150 297 46 


Min. lst Qu. Median Mean 3rd Qu. Max. 
2.000 2.000 3.000 2 3.000 4.000 


如 上 面 的 输出 所 指出 的 ， 规 则 的 规模 (大 小 ) 是 由 规则 的 前 项 (条件 项 或 
~ 汪 、 左 项 ，lhs) 与 规则 的 后 项 (结果 项 或 右 项 ，rhs) 相 加 得 到 的 。 这 意味 
a 着 ， 规 则 {bread} => {butter} 为 2 项 ， 规 则 {peanut butter, 

jelly) => {bread} 为 3 项 。 


接 下 来 ,我 们 看 一 看 用 于 度量 规则 质量 的 主要 统计 量 : 支持 度 ( support)、 置 信和 度 
( confidence) 和 提升 度 ( lift)。 因 为 我 们 使 用 支持 度 和 置信 度 作 为 规则 的 选择 标准 ， 所 以 这 两 
个 统计 量 应 该 不 会 令 人 感到 很 惊讶 。 然 而 ， 如 果 大 多 数 或 者 所 有 的 规则 都 非常 接近 最 小 贱 值 
(这 里 的 案例 不 是 这 种 情况 )， 那 么 我 们 可 能 会 感到 震惊 。 


summary of quality measures: 


support confidence TLEt 
Min ， :0.006101 Min. :0.2500 Min. OD 
lst Qu.:0.007117 lat Qa. 0.2971 183t Qu.:1.6229 
Median :0.008744 Median :0.3554 Median :1.9332 
Mean 0.011539 Mean :0.3786 Mean :2.0351 
3rd Qu.:0.012303 3rd Qu.:0.4495 3rd Qu.:2.3565 
Max . :0.074835 Max . :0.6600 Max . 3.9565 


第 3 列 提升 度 (lift) 是 新 引入 的 一 个 度量 标准 。 假 设 你 知道 另 一 类 商品 已 经 被 购买 ， 提 
升 度 就 是 用 来 度量 一 类 商品 相对 于 它 的 一 般 购买 率 ， 此 时 被 购买 的 可 能 性 有 多 大 。 它 的 定义 
如 下 面 的 公式 所 示 : 


confidence (X—>7) 


lift (X—>Y)= support (X) 





a 与 置信 度 的 商品 购买 顺序 问题 不 同 ,，1ift (X 一 >Y) 与 1ift (Y 一 >X) 是 
相同 的 。 


例如 ， 假 设 在 一 家 杂货 店 ， 大 多 数 人 都 购买 milk (牛奶 ) 和 bread (面包 )。 只 通过 偶然 的 
机 会 ， 我 们 期 望 找到 同时 购买 milk 和 bread 的 许多 交易 。 然 而 ， 如 果 1ift(milk 一 >bread) 
大 于 1， 那么 这 就 意味 着 偶然 发 现 这 两 类 商品 在 一 起 比 发 现 只 有 一 类 商品 更 常见 。 因 此 ， 一 
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个 大 的 提升 度 值 是 一 个 重要 的 指标 ， 它 表明 一 个 规则 是 很 重要 的 ， 并 反映 了 商品 之 间 的 真实 
联系 。 

在 summary() 输出 的 最 后 部 分 ， 得 到 的 挖掘 信息 告诉 我 们 如 何 选择 规则 。 这 里 ， 我 
们 看 到 包含 9835 次 交易 的 groceries 数据 ， 用 来 构建 最 小 支持 度 为 0.06 与 最 小 置信 度 为 
0.25 的 规则 : 

mining info: 

data ntransactions support confidence 


groceries 9835 0.006 0:25 
我 们 可 以 使 用 inspect () 函数 看 一 看 具体 的 规则 。 例如， 对 象 groceryrules 中 的 前 
3 个 规则 如 下 所 示 : 


> inspect (groceryrules [1:3]) 


rhs support confidence 1ift 
1 fporred plants} => {whole mi 人 OOo aE 0.4000000 1.565460 
2 ‘ asta} => {whole milk} 06100661 0.3054054 1.586614 
3 therbs} => {root vegetables} 0: 07610 60 0.4312500 3.956477 


由 lhs 和 zhs 表示 的 列 指 的 是 规则 的 前 项 (条 件 项 或 者 左 项 ) ( Left-Hand Side, LHS) 
和 后 项 ( ee dep Side, RHS)。LHS 表示 为 了 触发 规则 需要 满足 的 条 件 ， 
而 RHS 表示 满足 条 件 后 的 预期 结果 

第 一 0 言 来 表示 “如 果 一 个 顾客 购买 了 potted plants (盆栽 植 
物 )， 那 么 他 还 会 购买 whole milk (全 脂 牛 奶 )。” 其 支持 度 ( support ) 大 约 为 0.007， 置 信 
度 (confidence) 为 0.400， 我们 可 以 确定 该 规则 涵盖 了 大 约 0.7% 的 交易 ， 而 且 涉及 potted 
plants (盆栽 植物 ) 购买 的 正确 率 为 40%。 提 升 度 (1ift) 值 告 诉 我 们 假定 一 个 顾客 购买 了 
potted plants (盆栽 植物 )， 他 相对 于 一 般 顾客 会 购买 whole milk (全 脂 牛 奶 ) 的 可 能 性 有 多 大 。 
因为 我 们 知道 大 约 有 25.6% 的 顾客 购买 了 whole milk (全 脂 牛 奶 ) (支持 度 )， 而 购买 potted 
plants ( 盆栽 植物 ) 的 顾客 有 40% 购买 了 whole milk (全 脂 牛 奶 )( 置 信和 度 )， 所 以 我 们 可 以 计算 
提升 度 为 0.40/0.256=1.56， 这 与 显示 的 结果 是 一 致 的 (注意 ， 标 有 support 的 列表 示 规 则 
的 支持 度 ， 而 不 是 1hs 或 者 rhs 的 支持 度 )。 

尽管 规则 {potted plants} =>{whole milk} 的 置信 度 和 提升 度 都 很 高 ， 但 是 该 
规则 看 起 来 像 是 一 个 非常 有 用 的 规则 吗 ? 或 许 不 是 一 一 为 什么 会 有 人 在 购买 potted plants ( 盆 
栽植 物 ) 时 ， 更 可 能 购买 牛奶 呢 ? 似乎 没有 一 个 合乎 逻辑 的 理由 。 然 而 ， 我 们 的 数据 表明 并 
非 如 此 ,我 们 怎样 才能 使 得 这 一 事实 是 有 意义 的 呢 ? 

一 种 常见 的 做 法 就 是 获取 学 习 关 联 规则 的 结果 ， 并 把 它们 分 成 3 类 : 

口 可 行 的 规则 。 

口 平凡 的 规则 。 

口令 人 费解 的 规则 。 

然 ,， (市场 ) 购物 篮 分 析 的 目标 就 是 要 找到 可 行 的 (actionable) 规则 或 者 能 够 提供 明确 

的 有 益 启 示 的 规则 。 有 些 规则 是 明确 的 ， 有 些 规 则 是 有 用 的 ， 而 找到 包含 这 两 个 因素 的 规则 
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是 不 太 常见 的 。 
平凡 的 (Trivial) 规则 包括 那些 过 于 明显 以 至 于 不 值 一 提 的 规则 一 一 它们 是 很 明确 的 ， 但 
不 是 很 有 用 。 假 设 你 是 一 个 被 支付 了 大 笔 资 金 为 交叉 推广 (促销 ) 的 商品 确定 新 机 遇 的 营销 
顾问 ， 如 果 你 报告 的 结论 为 : {faiapezrs} => {formula} ({ 尿布 }=>{ 配方 奶 })， 那 
么 你 很 有 可 能 不 会 再 被 邀请 回来 做 男 外 一 份 咨询 工作 。 
平凡 的 规则 也 可 以 伪装 成 更 有 趣 的 结果 。 例 如 ， 假 设 你 发 现 了 某 一 特定 品牌 
的 儿童 谷物 (麦片) 和 某 一 特定 DVD 影片 之 间 的 关联 。 但 是 如 果 该 影片 的 
男 主角 位 于 谷物 (麦片 ) 使 的 前 面 ， 那 么 该 发 现 并 不 能 算是 令 人 感 兴趣 的 。 


AL 


如 果 商 品 之 间 的 规则 过 于 不 明确 以 至 于 搞 清 楚 如 何 使 用 这 些 信息 采取 行动 需要 更 多 的 研 
究 ， 那 么 这 样 的 规则 就 是 令 人 费解 的 (inexplicable)。 这 样 的 规则 可 能 仅仅 只 是 数据 中 的 一 种 
随机 模式 ， 例如， 规则 {pickles} => {chocolate ice cream} ({ 泡菜 }=>{ 巧 克 
力 冰淇淋 } )， 可 能 只 是 由 于 一 个 单一 的 顾客 ， 其 怀孕 的 妻子 定期 渴望 奇怪 组 合 的 食物 。 

最 好 的 规则 是 隐藏 的 宝石 一 一 那些 未 被 发 现 的 模式 中 的 深刻 见解 ， 一 旦 被 发 现 ， 似 乎 就 
很 明显 。 只 要 有 足够 的 时 间 ， 一 个 人 就 可 以 评估 463 个 规则 中 的 每 一 个 规则 以 发 现 宝石 。 然 
而 ， 对 于 一 个 规则 是 可 行 的 、 平 凡 的 ， 还 是 令 人 费解 的 ， 我 们 (进行 (市场 ) 购物 篮 分 析 的 
人 员 ) 可 能 不 是 最 佳 的 裁判 。 在 下 一 节 中 ， 我 们 将 采用 方法 对 所 学 的 规则 进行 排序 和 分 配 以 
提高 我 们 工作 的 效用 ， 从 而 使 得 最 有 趣 的 结果 浮现 出 来 。 


8.2.5 第 5 步 一 一 提高 模型 的 性 能 


主题 专家 (subject matter experts) 可 能 能 够 很 快 找 出 有 用 的 规则 ， 但 要 求 他 们 评估 数 百 条 
甚至 数 千 条 规则 将 会 浪费 他 们 很 多 时 间 。 因 此 ， 能 够 根据 不 同 的 标准 对 规则 进行 排序 ， 并 将 
它们 从 R 中 提取 出 来 ,形成 可 以 与 营销 团队 共享 ， 而且 可 以 进行 深入 探讨 的 形式 是 很 有 用 
的 。 这 样 ， 我 们 就 可 以 通过 使 结果 更 加 可 行 来 提高 规则 的 性 能 。 


1. 对 关联 规则 集合 排序 


根据 (市 场 ) 购物 篮 分 析 的 目标 ， 最 有 用 的 规则 或 许 是 那些 具有 最 高 支持 度 、 置 信和 度 和 
提升 度 的 规则 。arules 添加 包 包 含 一 个 sort () 函数 ， 可 以 用 来 对 规则 列表 重新 排序 ， 从 
而 那些 具有 最 高 或 者 最 低 质 量度 量 值 的 规则 将 会 排 在 第 一 位 。 

要 重新 排列 groceryrules， 我 们 可 以 应 用 sort () ， 同 时 指定 参数 by 为 "support"、 
"confidence" 或 者 "1ift"。 通 过 将 排序 与 向 量 运算 相 结合 ， 可 以 获得 指定 数目 的 有 趣 规 
则 ， 例 如 ,使 用 下 面 的 命令 ,根据 提升 度 统计 量 ， 可 以 研究 最 好 的 5 个 规则 : 


> inspect (sort (groceryrules, by = "lift") [1:5]) 


这 看 起 来 将 像 下 面 的 屏幕 截图 : 
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lhs rhs support confidence 1ift 
1 {herbs} => {root vegetables} 0.007015760 0.4312500 3.956477 
2 {berries} => {whipped,/souyr cream} 0.009049314 0.2721713 3.796886 


3 {other vegetables, 

tropical fruit, 

oe mi lik} => {root vegetables} 0.007015760 0.4107143 3.768074 
后 eeT ， 

other vegetables} => {root vegetables} 0.007930859 0.4020619 3.688692 
5 {other vegetables, 

tropical fruit} => {pip fruit} 0.009456024 0.2634561 3.482649 


这 些 规 则 似乎 比 我 们 之 前 看 到 的 规则 更 令 人 感 兴趣 。 第 一 条 规则 ， 提 升 度 为 3.956 477， 
这 意味 着 购买 herbs (药草 ) 的 顾客 比 一 般 顾 客 有 将 近 4 倍 的 可 能 性 购买 root vegetables (根菜 
类 蔬菜 ) 或 许 是 用 于 某 种 类 型 的 汤 吗 ”第 二 条 规则 同样 令 人 感 兴趣 。 相 对 于 其 他 的 购物 
车 ，whipped cream( 鲜 奶油 ) 有 超过 3 倍 的 可 能 性 在 具有 berries (浆果 ) 的 购物 车 中 被 发 现 ， 
这 或 许 表明 是 一 种 甜点 搭配 吗 ? 


~ 汪 、 在 默认 情况 下 ， 排 序 的 顺序 是 递减 的 ， 这 意味 着 最 大 值 排 在 第 一 位 ， 为 了 反 
转 这 一 排序 ， 可 添加 另 一 个 参数 decreasing = FALSE。 





2. 提取 关联 规则 的 子 集 


假设 给 定 上 述 规 则 ， 营 销 团队 对 于 有 可 能 创建 一 个 广告 来 促销 正 处 于 旺季 的 berries ( 浆 
果 ) 感到 非常 激动 。 然 而 ， 在 落实 广告 活动 之 前 ， 他 们 要 求 你 调查 berries (浆果 ) 是 否 经 常 
与 其 他 商品 一 起 购买 。 要 回答 这 个 问题 ， 我 们 需要 找到 以 某 种 形式 包含 berries (浆果 ) 的 所 
有 规则 。 

subset () 函数 提供 了 一 种 用 来 寻找 交易 、 商 品 (项 ) 或 者 规则 子 集 的 方法 。 要 用 该 函 
数 在 所 有 规则 中 寻找 那些 包含 berries 的 所 有 规则 ， 通 过 使 用 下 面 的 命令 ， 将 把 (满足 条 件 的 ) 
规则 存储 在 一 个 名 为 perryrules 的 新 对 象 中 : 

> berryrules <- Subset (groceryrules, items %in% 'berries") 

当 我 们 已 经 处 理 完 较 大 的 集合 时 ， 我 们 可 以 查看 这 些 满足 条 件 的 规则 : 

> inspect (berryrules) 


结果 为 如 下 所 示 的 规则 集 : 


ihs rhs support confidence lift 
1 Terries} => {whipped/sour cream} 0.009049314 0.2721713 3.796886 
2 {berries} => {yogurt} 0.010574479 0.3180428 2.279848 


3 {berries} => 让 er es 0. 010269446 0.3088685 1. 596280 
4 {berries} => {whole mjTkji 0.011794611 0.3547401 1.388328 


涉及 berries (浆果 ) 的 规则 有 4 个 ， 其 中 有 2 个 似乎 很 令 人 感 兴 趣 ， 足 以 称 为 可 行 的 规 
则 。 除 了 whipped cream ( 鲜 奶 油 ) 外 ，berries (浆果 ) 也 经 常 与 yogurt (酸奶 ) 一 起 购买 一 一 
一 种 可 以 作为 很 好 的 早餐 或 者 午餐 以 及 甜点 的 搭配 。 

subset () 函数 是 非常 强大 的 ， 选 择 子 集 的 标准 可 以 用 几 个 关键 词 和 运算 符 来 定义 : 

口 前面 解释 过 的 关键 词 items ， 与 出 现在 规则 任何 位 置 的 项 相 匹 配 。 为 了 将 子 集 限 制 
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到 匹配 只 发 生 在 左 侧 或 者 右 侧 的 位 置 上 ， 可 使 用 lhs 和 rhs 代替 。 

口 运算 符 %in% 意味 着 至 少 有 一 项 在 定义 的 列表 中 可 以 找到 。 如 果 想 得 到 要 么 与 berries 
(浆果 ) 相 匹 配 ， 要 么 与 yogurt (酸奶 ) 相 匹配 的 规则 ， 那 么 可 以 输入 items %ins%s 
c(l"'berries'", "yogurt")。 

口 用 于 部 分 匹配 (spings) 和 完全 匹配 ($ain%) 的 额外 的 运算 符 是 可 用 的 。 部 分 匹 
配 允 许 使 用 一 次 搜索 (items s%pin% "fruit")， 就 可 以 找到 既 包 含 citrus 
fruit (柑橘 类 水 果 ) 又 包含 tropical fruit (热带 水 果 ) 的 规则 。 完 全 匹配 需 
要 所 有 列 出 的 项 都 存在 ， 例 如 ，items saings c("berries"， "yogurt") 只 能 
找到 既 包 含 berries (浆果 ) 又 包含 yogurt (酸奶 ) 的 规则 。 

口子 集 同 样 可 以 用 支持 度 、 置 信和 度 和 提升 度 来 加 以 限制 ， 例 如 , confidence > 0.50 
将 限制 你 只 能 找到 置信 度 大 于 50% 的 规则 。 

口 匹配 准则 可 以 与 R 中 标准 的 逻辑 运算 符 (比如 , 与 (&)、 或 (|) 和 非 (!)) 相 结合 。 

使 用 这 些 选 项 ， 可 以 限制 你 想 要 选择 的 规则 为 特定 的 规则 或 者 是 一 般 的 规则 。 


3. 将 关联 规则 保存 到 文件 或 者 数据 框 中 


若 要 分 享 (市 场 ) 购物 篮 分 析 的 结果 ， 你 可 以 使 用 write() 函数 将 规则 保存 到 CSYV 文 
件 中 。 这 将 产生 一 个 可 以 在 大 多 数 电子 表格 程序 (包括 Microsoft Excel) 中 使 用 的 CSV 文件 : 


> writel(groceryrules, file = "groceryrules.csv'"， 
Sep = ",", quote = TRUE, row.names = FALSE) 


有 了 时候 将 其 转换 成 R 中 的 数据 框 也 是 很 方便 的 。 使 用 as () 函数 ， 可 以 很 容易 实现 ， 如 
下 所 示 : 

> groceryrules df <- asl(lgroceryrules, "data.frame') 

这 样 就 创建 了 一 个 数据 框 ， 其 中 规则 是 因子 (factor) 格式 ， 支 持 度 (support)、 置 信 度 
(confidence) 和 提升 度 (1ift) 为 数值 向 量 : 


> str(groceryrules df) 


'data.frame': 463 obs. of 4 variables: 

$ rules : Factor w/ 463 levels "{baking powder} => {other 
vegetables}",..: 340 302 207 206 208 341 402 21 139 140 ... 

$ support : num 0.00691 0.0061 0.00702 0.00773 0.00773 ... 
$ confidence: num 0.4 0.405 0.431 0.475 0.475 ... 

$ lift s Hum B53Y Vad9 S96 SRS LL BE 3 


如 果 你 想 对 规则 进行 进一步 的 处 理 或 者 你 需要 将 它们 导入 另 一 个 数据 库 ， 你 可 能 会 选择 
这 么 做 。 


8.3 总 结 
关联 规则 是 解决 大 数据 问题 的 一 种 方法 。 作 为 一 种 无 监督 的 学 习 算 法 ， 它 们 能 够 从 没有 
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任何 关于 模式 的 先 验 知识 的 大 型 数据 库 中 提取 知识 。 美 中 不 足 的 是 ,将 大 量 的 信息 缩减 成 更 
小 、 更 易于 管理 的 结果 集 需 要 一 些 努力 。 而 本 章 研究 的 Apriori 算法 可 以 通过 设置 兴趣 度 的 
最 小 国 值 和 只 呈现 满足 这 些 准 则 的 关联 来 解决 这 个 问题 。 

在 我 们 对 一 个 中 等 规模 超市 的 一 个 月 的 交易 价值 进行 (市场) 购物 篮 分 析 时 ， 我 们 使 用 
了 Apriori 算 法。 即使 在 这 样 一 个 小 案例 中 ,我们 还 是 发 现 了 大 量 的 关联 。 在 这 些 关 联 中 ， 
我 们 注意 到 有 些 模式 对 于 未 来 的 营销 活动 可 能 很 有 用 。 这 里 使 用 的 方法 同样 适用 于 更 大 的 零 
售 商 ， 它 们 的 数据 库 规 模 可 能 是 本 例 中 数据 库 规模 的 好 几 售 。 

在 下 一 章 中 ,我 们 将 研究 另外 一 种 无 监督 的 学 习 算法 ， 该 算法 与 关联 规则 一 样 ， 目 的 也 
是 探寻 数据 中 的 模式 ， 但 其 与 探寻 关联 规则 的 内 部 特征 模式 不 同 ， 下 一 章 中 的 方法 更 加 关注 
找到 案例 之 间 的 联系 。 
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尔 曾 经 有 过 花 时 间 观 看 大 量 人 群 的 行为 吗 ” 作 为 社会 学 家 ， 这 是 我 最 喜欢 的 消 遗 方式 之 一 
我 会 选择 一 个 人 来 人 往 的 地 段 (比如 ， 咖 啡 厅 、 图 书馆 或 者 自助 餐厅 ) 来 观察 大 量 人 和 群 的 有 趣 
的 行为 模式 ， 目 的 是 为 了 寻找 人 们 相互 之 间 以 及 与 他 们 周围 环境 相 联系 的 一 般 规律 的 细节 。 

你 进行 这 样 的 观察 研究 越 多 ， 你 可 能 看 到 反复 出 现 的 个 体 也 会 越 多 。 或 许 根据 一 套 刚 毁 
过 的 西服 和 一 个 公文 包 ， 就 可 以 确定 这 种 类 型 的 人 是 典型 的 商务 白领 高 管 。 一 个 20 岁 出 头 ， 
穿着 紧身 牛仔 裤 和 法 兰 绒 衬 衫 ， 戴 着 太阳 镜 的 小 伙 可 能 属于 赶 时 明 的 一 类 人 ; 而 一 个 让 孩子 
从 小 型 货车 上 下 车 的 女人 可 能 会 被 贴 上 “足球 妈妈 ”(soccer mom) 的 标签 。 

当然 ， 将 这 些 类 型 的 老 套 观念 应 用 于 个 人 是 很 危险 的 一 一 没有 哪 两 个 人 是 完全 一 样 的 。 
然而 ， 在 用 于 聚 类 时 ， 这 些 标签 可 能 反映 了 属于 同一 组 内 的 个 体 之 间 的 一 些 潜在 的 相似 模式 。 

本 章 介绍 了 用 于 处 理 聚 类 任务 的 机 器 学 习 方法 ， 其 中 包括 找到 数据 的 自然 分 组 。 正 如 你 
将 看 到 的 ， 聚 类 的 过 程 与 刚刚 描述 的 观察 研究 的 过 程 是 非常 相似 的 。 在 本 章 中 ， 你 将 学 习 : 

口 不 同 于 我 们 先前 研究 的 分 类 任务 的 聚 类 任务 方法 以 及 聚 类 如 何 定 义 分 组 。 

口 k 均值 的 基本 方法 ， 它 是 一 种 经 典 的 并 且 容 易 理 解 的 聚 类 算法 。 

口 如 何 将 聚 类 应 用 到 现实 世界 的 市 场 细 分 任务 ， 例 如 青少年 社交 媒体 用 户 的 市 场 细 分 。 

在 采取 行动 之 前 ， 让 我 们 从 深入 了 解 聚 类 到 底 能 够 带 来 什么 开始 。 





9.1 理解 聚 类 


聚 类 是 一 种 无 监督 的 机 器 学 习 任务 ， 它 可 以 自动 将 数据 划分 成 类 (cluster)， 或 者 具有 类 

似 项 的 分 组 。 因 此 ， 聚 类 分 组 不 需要 提前 被 告知 所 划分 的 组 应 该 是 什么 样 的 。 因 为 我 们 甚至 

可 能 都 不 知道 我 们 在 寻找 什么 ， 所 以 聚 类 是 用 于 知识 发 现 而 不 是 预测 。 它 提供 了 一 种 从 数据 
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内 部 发 现 自然 分 组 的 深刻 洞察 。 

如 果 没 有 预先 了 解 一 个 组 是 由 什么 构成 的 ， 那 么 一 台 计 算 机 如 何 可 能 知道 到 哪里 一 组 
结束 了 ， 而 男 一 组 开始 了 呢 ? 管 案 很 简单 。 聚 类 的 原则 是 一 个 组 内 的 记录 ,彼此 必须 非常 相 
似 ， 而 与 该 组 之 外 的 记录 截然 不 同 。 正 如 你 稍 后 将 看 到 的 ,遍及 所 有 的 应 用 ， 相 似 的 定义 都 
可 能 会 不 同 ， 但 是 基本 的 思想 总 是 相同 的 : 对 数据 分 组 时 ， 总 是 使 得 相关 的 元 素 放 在 一 起 。 

然后 ， 所 得 到 的 结果 就 可 以 用 于 行动 。 例 如 ， 你 可 能 会 发 现 如 下 的 一 些 应 用 会 采用 聚 类 方法 : 

口 用 客户 细 分 为 具有 相同 的 人 口 地 理 特 征 或 者 相同 购买 模式 的 组 别 ， 从 而 应 用 于 有 针对 

性 的 营销 活动 ， 或 者 根据 组 别 来 对 购买 行为 进行 详细 分 析 。 
口 通过 识别 使 用 模式 不 同 于 已 知 组 别 来 检测 异常 行为 ， 比 如 侦 测 未 经 授权 入 侵 计 算 机 网 
络 的 行为 。 

口 将 大 量具 有 相似 值 的 特征 划分 成 较 小 的 具有 同 质 类 特征 的 组 中 ， 从 而 简化 特大 的 数据 集 。 

总 之 ， 聚 类 是 非常 有 用 的 ， 无 论 何 时 ， 各 种 数据 集 都 可 以 用 较 小 的 多 个 数据 组 来 表示 。 
和 而且， 通过 聚 类 生成 的 有 意义 的 和 可 行 的 数据 内 部 结构 降低 了 数据 的 复杂 性 ， 并 且 提 供 了 关 
于 关系 模式 的 深刻 见解 。 


9.1.1 聚 类 一 一 一 种 机 器 学 习 任务 

聚 类 与 我 们 目前 为 止 已 经 研究 过 的 分 类 、 数 值 预测 和 模式 检测 任务 稍 有 不 同 。 在 我 们 研 
究 过 的 这 些 案例 中 ， 每 一 个 案例 的 结果 都 是 一 个 特征 与 结果 或 者 特征 与 其 他 特征 相关 的 模型 。 
这 些 模型 可 以 用 来 识别 数据 内 部 的 模式 。 相 比 之 下 ， 聚 类 创建 了 新 数据 。 给 无 标签 案例 一 个 
类 标签 ， 并 完全 根据 数据 的 内 部 关系 进行 推断 。 由 于 这 个 原因 ， 你 有 时 将 会 看 到 聚 类 称 为 无 
监督 分 类 (unsupervised classification)， 因 为 从 某 种 意义 上 讲 ， 这 就 是 对 无 标签 案例 进行 分 类 。 

美中不足 的 是 ， 从 无 监督 分 类 器 获得 的 分 类 标签 没有 内 在 的 意义 。 聚 类 将 告诉 你 样本 中 的 
哪些 类 别 是 密切 相关 的 (例如 ， 它 可 能 会 返回 类 4、B 和 C)， 但 应 用 一 个 可 行 的 且 有 意义 的 类 
标签 是 由 你 来 决定 的 。 为 了 了 解 这 个 问题 如 何 影 响 聚 类 任务 ， 让 我 们 来 考虑 一 个 虚假 的 例子 。 

假设 你 正在 组 织 一 个 以 数据 科学 为 主题 的 会 议 。 为 了 便于 形成 专业 网 络 及 协作 ， 你 打算 根 
据 他 们 的 研究 专长 : 计算 机 与 数据 库 科学 、 数 学 与 统计 学 





和 机 器 学 习 3 个 研究 专业 分 组 ， 安 排 大 家 到 不 同 的 组 就 

坐 。 不 幸 的 是 ， 在 你 发 送 了 会 议 邀 请 函 之 后 ， 你 意识 到 你 

忘记 在 邀请 函 中 包含 一 份 调查 以 询问 与 会 者 更 愿意 就 座 于 虽 | ” eeo oo。 

哪个 学 科 组 中 。 S| eeee e 
然而 ， 灵 光一 站， 你 意识 到 或 许可 以 通过 研究 他 的 ”区 @ 

论文 发 表 历史 来 推 其 每 位 学 者 的 研究 专业 。 为 此 ， 你 开 至 e ©。 8 

和 收集 数 据 ， 关 于 每 一 位 与 会 者 在 计算 机 科学 相关 杂志 让 es 

上 发 表 的 论文 数量 以 及 在 数学 或 者 统计 相关 杂志 上 发 表 eee 

的 论文 数量 。 使 用 所 收集 的 几 位 学 者 的 数据 ， 你 创建 了 

一 个 散 点 图 : 数学 和 统计 学 发 表 数 量 
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正如 预期 的 那样 ， 这 里 似乎 有 一 种 模式 。 我 们 可 以 猜测 左上 角 可 能 是 由 计算 机 科学 家 构 
成 的 一 个 类 ， 因 为 左上 角 表 示 发 表 过 许多 计算 机 科学 论文 而 少量 关于 数学 论文 的 学 者 。 按 照 
这 一 逻辑 ， 右 下 角 可 能 是 由 数学 家 构成 的 类 。 类 似 地 ， 右 上 角 可 能 是 机 器 学 习 专家 ， 因 为 右 
上 角 表 示 那 些 既 有 数学 经 验 又 有 计算 机 科学 经 验 的 学 者 。 

与 主观 地 定义 分 组 的 边界 相 比 ， 使 用 机 器 学 习 方 法 来 客观 地 定义 分 组 更 好 。 在 上 图 中 
给 定 平行 于 坐标 轴 的 分 割 线 ， 这 个 问题 看 起 来 就 像 是 第 5 章 中 描述 的 决策 树 应 用 。 这 将 为 我 
们 提供 一 个 清晰 的 规则 ， 如 “如 果 某 位 学 者 只 发 表 过 少量 的 数学 论文 ， 那 么 他 是 计算 机 科学 
家 ”。 遗 憾 的 是 ， 这 个 计划 有 一 个 问题 ， 因 为 我 们 不 知道 每 个 点 的 真实 分 类 值 ， 所 以 我 们 无 


法 采用 有 监督 的 学 习 算 法 。 

我 们 形成 的 分 组 只 是 视觉 上 的 ， 我们 简单 地 根 
据 靠 近 的 数据 分 组 来 确定 了 类 。 尽 管 是 看 似 明显 的 分 
组 ， 但 是 如 果 没 有 亲自 询问 每 一 位 学 者 关于 他 的 学 术 
专长 ， 我 们 还 是 没有 办 法 知道 他 们 是 否 真正 地 属于 同 
一 类 。 我们 应 用 的 标签 要 求 我 们 对 落 入 组 内 的 学 者 的 
研究 类 型 进行 定性 假定 判断 。 因 此 ， 你 可 以 用 右 图 中 
所 示 的 不 确定 的 术语 来 假定 类 的 标签 。 

聚 类 算法 的 过 程 与 我 们 通过 视觉 查看 散 点 图 所 做 
的 有 些 类 似 。 通 过 使 用 一 个 度量 样本 相关 程度 有 多 紧 
密 的 度量 ， 就 可 以 将 它们 分 配 到 同 质 的 组 中 。 在 下 一 
节 中 ， 我 们 将 开始 研究 聚 类 算法 是 如 何 实现 的 。 


计算 机 科学 发 表 数量 





数学 和 统计 学 发 表 数量 


这 个 例子 突出 强调 了 聚 类 的 一 个 有 趣 应 用 。 如 果 你 一 开始 从 无 标签 的 数据 入 
~ 手 ， 那 么 你 就 可 以 使 用 聚 类 来 创建 分 类 标签 。 然 后 ， 你 可 以 应 用 一 个 有 监督 
学 习 算 法 (比如 ， 决 策 树 ) 来 寻找 这 些 类 中 最 重要 的 预测 指标 ， 这 称 为 半 监 


督学 习 (semi-supervised learning)。 


9.1.2  k 均值 聚 类 算法 


k 均值 算法 可 能 是 最 常用 的 聚 类 方法 ， 该 算法 已 经 被 研究 了 几 十 年 ， 是 许多 更 加 复杂 引 
类 技术 的 基础 。 如 果 你 理解 了 该 算法 使 用 的 简单 原则 ， 你 将 会 拥有 理解 当今 使 用 的 几乎 所 有 
聚 类 算法 的 知识 。 许 多 这 样 的 方法 都 列 在 下 面 的 网 站 (有 关 聚 类 的 CRAN 任务 视图 ) 中 : 


http://cran.r-project.org/web/views/Cluster.html 


、 随 着 时 间 的 推移 , k 均值 算法 也 在 发 生 演变 ， 因 此 关于 该 算法 ， 有 许多 不 同 

& - 。 
\e :; 、、 的 实现 。 一 种 流行 的 方法 的 介绍 可 参见 : A k-means clustering algorithm in 
Applied Statistics, Vol. 28, pp. 100-108, by Hartigan, J.A. and Wong, M.A. (1979)。 


尽管 自 k 均 值 算法 提出 以 来 ， 聚 类 方法 已 经 有 了 改进 ， 但 这 并 不 意味 着 k 均值 算法 已 经 
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过 时 。 事 实 上 ， 该 方法 现在 可 能 比 以 前 更 受 欢 迎 。 下 表 列 出 了 一 些 为 什么 k 均值 算法 仍然 广 
泛 使 用 的 原因 。 






e 相对 于 更 多 近期 的 聚 类 算法 ， 它 不 够 复杂 
e 因为 它 使 用 了 一 个 随机 的 元 素 ， 所 以 它 不 能 保 
证 找到 最 佳 的 类 

需要 一 个 合理 的 猜测 : 数据 有 多 少 个 自然 类 







。 使 用 简单 的 原则 来 确定 可 以 用 非 统计 术语 解释 的 类 
。 它 具 有 高 度 的 灵活 性 ， 并 且 通过 简单 的 调整 ， 它 就 
可 以 进行 修正 以 克服 它 几 乎 所 有 的 缺点 
。 将 数据 划分 成 有 用 的 类 ， 它 是 相当 有 效 的 且 运 行 良好 
如 果 k 均值 这 个 名 称 对 你 来 说 听 起 来 有 点 儿 熟 悉 ， 你 可 能 会 想起 第 3 章 中 介绍 的 k 近邻 
算法 。 你 很 快 就 会 看 到 ，k 均值 与 k 近邻 有 很 多 共同 点 ， 不 仅仅 是 字母 k。 
k 均值 算法 涉及 将 n 个 案例 中 的 每 一 个 案例 分 配 到 个 类 中 的 一 个 ， 其 中 是 一 个 提前 
定义 好 的 数 ， 其 目标 是 最 小 化 每 一 个 类 内 部 的 差异 ， 最 大 化 类 之 间 的 差异 。 
除非 X 和 nn 是 极 小 的 ， 否则 遍及 案例 所 有 可 能 的 组 合 ， 计 算 最 优 的 聚 类 是 不 可 行 的 。 取 
而 代 之 ， 该 算法 使 用 了 一 个 可 以 找到 局 部 最 优 解 的 启发 式 过 程 。 简 单 来 说 ， 这 意味 着 它 从 类 
分 配 的 最 初 猜测 开始 ， 然 后 对 分 配 稍 加 修正 以 查看 该 变化 是 否 提升 了 类 内 部 的 同 质 性 . 
很 快 ， 我们 就 会 深入 讨论 这 个 过 程 ， 然 而 该 算法 本 质 上 包括 两 个 阶段 。 首 先 ， 该 算法 将 案 
例 分 配 到 初始 的 个 类 中 。 其 次 ,根据 落 入 当前 类 的 案例 调整 类 的 边界 来 更 新 分 配 。 重 复 更 新 
和 分 配 过 程 多 次 ， 直 到 做 出 的 改变 不 会 再 提升 类 的 优 度 。 至 此 ， 该 过 程 停止 ， 聚 类 最 终 确 定 。 
由 于 k 均值 的 启发 式 性 质 ， 你 可 能 只 需要 对 初始 条 件 做 出 轻微 的 改变 ， 就 能 
-< 汪 以 略 有 不 同 的 最 终结 果 结 束 。 如 果 结 果 相 差 很 大 ， 这 可 能 表示 存在 问题 。 例 
如 ， 该 数据 可 能 不 存在 自然 分 组 或 者 已 经 选 定 的 人 值 很 差 。 为 此 ， 尝 试 不 止 
一 次 的 聚 类 分 析 来 测试 研究 结果 的 稳健 性 或 许 是 一 种 很 好 的 想法 。 








为 了 了 解 在 实际 中 分 配 和 更 新 过 程 是 如 何 运 作 的 ， 让 我 们 来 重新 审视 用 于 数据 科学 会 议 
的 个 案例 数据 。 虽 然 这 是 一 个 简单 的 例子 ， 但 它 说 明 k 均值 在 后 台 是 如 何 运作 的 基本 原理 . 


1. 使 用 距离 来 分 配 和 更 新 类 


就 像 k 近 邻 一 样 , k 均值 将 特征 值 作为 一 个 多 维 
特征 空间 中 的 坐标 。 对 于 数据 科学 会 议 的 数据 ， 因 为 
只 有 两 个 特征 ， 所 以 可 以 将 特征 空间 表示 为 如 先前 所 
描述 的 一 个 2 维 散 点 图 。k 均值 算法 首先 在 特征 空间 
中 选择 个 点 作为 类 中 心 。 这 些 中 心 是 促使 剩余 的 案 
例 落 入 特征 空间 中 的 催化 剂 (触发 因素 )。 通 常 这 些 点 
是 根据 从 训练 数据 集中 选择 的 大 个 随机 案例 而 确定 的 。 
因为 我 们 希望 确定 3 个 类 ， 所 以 选中 入 3 个 点 。 这 些 
点 在 下 图 中 由 星 形 、 三 角形 和 萎 形 表示 。 


H 算 机 科学 发 表 数 量 


T 





数学 和 统计 学 发 表 数 量 
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地 方 的 随机 值 (而 不 是 只 在 数据 的 观测 值 之 间 进 行 选择 ) ; 男 一 种 方法 是 完全 跳 过 这 一 步 , 通 
过 将 每 个 案例 随机 分 配 到 一 个 类 中 ， 该 算法 可 以 直接 跳 过 这 一 阶段 ， 立 即 进 入 更 新 阶段 。 这 
里 的 每 一 种 方法 都 会 对 最 终 的 聚 类 结果 产生 一 个 特定 的 偏差 ， 或 许 你 可 以 使 用 它 来 调整 结果 。 

在 选择 了 初始 类 中 心 之 后 ， 其 他 的 案例 将 分 配 到 与 其 最 相似 或 者 根据 距离 函数 最 相近 的 
类 中 心 。 你 会 想起 在 我 们 学 习 k 近邻 的 时 候 ， 我们 研究 过 距离 函数 。 通 常 ,，k 均值 使 用 欧 氏 
距离 (Euclidean distance)， 但 是 有 时 候 也 使 用 曼哈顿 距离 (Manhattan distance) 或 者 闵可夫 斯 
基 距 离 (Minkowski distance)。 回 想 一 下 ， 如 果 n 表示 特征 的 数量 ， 那 么 案例 x 和 案例 > 之 间 
的 欧式 距离 公式 如 下 为 : 


还 有 一 些 其 他 的 方法 可 以 用 来 选择 初始 的 类 中 心 。 一 种 方法 是 选择 发 生 在 特征 空间 任意 





> (5 中 


i=| 





dist (x,y)= 


例如 ， 如 果 我 们 将 一 位 发 表 过 5 篇 计算 机 科学 论文 和 1 篇 数学 论文 的 会 议 来 宾 与 一 位 没 
有 发 表 过 计算 机 科学 论文 但 发 表 过 2 篇 数学 论文 的 会 议 来 宾 进 行 比较 ,我 们 可 以 在 R 中 进行 


> sqrt((5 - 0)*2 + (1 - 2)“2) 
[1] 5.09902 


使 用 该 距离 函数 ， 我 们 可 以 计算 每 一 案例 与 每 一 个 类 中 心 之 间 的 距离 。 然 后 ， 该 案例 就 
会 被 分 配给 离 它 最 近 的 类 中 心 。 


ol 请 记 住 ， 因 为 我 们 使 用 距离 计算 ， 所 以 所 有 的 数据 都 必须 是 数值 型 的 ， 而 且 
以 所 有 的 值 都 需要 提前 标准 化 到 一 个 标准 范围 内 。 第 3 章 介绍 的 方法 在 这 里 将 
会 证 明 很 有 帮助 。 


如 下 图 所 示 ，3 个 类 中 心 将 案例 划分 到 标 有 类 4、 类 B 和 类 C 的 3 个 区 域 中 。 虚 线 表 示 
由 类 中 心 创建 的 沃 罗 诺 伊 图 (Voronoi diagram) 的 边 
界 。 沃 罗 诺 伊 图 给 出 相对 于 任何 其 他 的 类 中 心 更 接 
近 于 当前 的 类 中 心 的 区 域 ，3 条 类 边界 汇合 的 顶点 
是 到 3 个 类 中 心 的 距离 最 大 的 点 。 利 用 这 些 边界 ， 
我 们 可 以 很 容易 看 到 由 每 一 个 初始 的 k 均值 种 子 所 
确定 的 区 域 : 

既然 初始 的 分 配 阶段 已 经 完成 ， 则 kk 均值 算法 
就 转 到 更 新 阶段 。 更 新 类 的 第 一 步 涉及 将 初始 的 类 
中 心 转移 到 一 个 新 的 位 置 ， 称 为 质心 (centroid), 它 
可 以 通过 计算 分 配 到 当前 类 中 的 各 点 的 均值 来 得 
到 - 左下 图 说 明了 类 中 心 如 何 变换 到 新 的 质心 。 数学 和 统计 学 发 表 数 量 

因为 类 的 边界 已 经 根据 重新 定位 的 中 心 进行 了 


计算 机 科学 发 表 数量 
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调整 ， 所 以 类 4 中 可 以 分 配 到 来 自 类 B 中 的 额外 的 案例 (如 图 中 箭头 所 示 )。 由 于 这 种 重新 
分 配 ， 所 以 上 均值 算法 将 继续 进入 下 一 个 更 新 阶段 。 在 对 类 重新 计算 质心 之 后 ， 得 到 的 图 如 
右 下 图 所 示 。 


计算 机 科学 发 表 数 量 
计算 机 科学 发 表 数 量 





数学 和 统计 学 发 表 数 量 数学 和 统计 学 发 表 数量 

在 这 个 阶段 中 ， 又 有 两 个 点 从 类 B 中 重新 分 配 到 类 4 中 ， 因 为 现在 这 两 个 点 相对 于 类 B 
的 质心 ， 更 接近 于 类 4 的 质心 。 这 样 就 导致 了 另 一 
个 更 新 阶段 ， 如 下 图 所 示 。 

由 于 没有 点 在 此 阶段 被 重新 分 配 ， 所 以 均值 
算法 停止 。 到 目前 为 止 ， 聚 类 分 配 最 终 完成 。 

聚 类 学 习 的 最 终结 果 可 以 通过 以 下 两 种 方式 之 
一 来 表达 。 一 方面 ， 你 可 以 简单 地 报告 每 一 个 案例 
的 分 类 情况 ; 另 一 方面 ， 你 也 可 以 报告 在 最 后 一 次 
更 新 之 后 ， 聚 类 质心 的 坐标 。 给 定 两 种 表达 方法 中 
的 任意 一 种 ， 你 就 能 够 通过 计算 质心 或 者 将 每 一 个 
案例 分 配 到 离 它 最 近 的 类 中 来 定义 类 的 边界 。 


计算 机 科学 发 表 数 量 
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2. 选择 适当 的 聚 类 数 
在 上 均值 的 介绍 中 ， 我们 了 解 到 该 算法 对 于 随机 选择 的 聚 类 中 心 很 敏感 。 事 实 上 ， 如 果 
在 前 面 的 例子 中 ， 我 们 选择 了 一 个 关于 3 个 初始 点 的 不 同 组 合 ， 我 们 可 能 会 发 现 划分 数据 的 
类 与 我 们 之 前 所 预期 的 不 一 样 。 
AL 选择 类 的 数目 需要 一 种 微妙 的 平衡 ， 设 定 非常 大 的 大 会 提升 类 的 同 质 性 ， 但 
与 此 同时 ， 会 有 过 度 拟 合 数据 的 风险 。 


理想 情况 下 ， 你 将 有 一 些 关于 真实 分 组 的 先 验 知识 〈 即 先 验 信念 )， 使 用 该 信息 ， 你 可 以 
开始 应 用 k 均值 算法 。 例 如 ， 如 果 你 对 电影 聚 类 ， 你 可 能 会 从 设置 上 等 于 奥斯卡 奖 所 考虑 的 
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体裁 数 开始 。 在 我 们 之 前 所 研究 的 数据 科学 会 议 的 就 坐 问题 中 , 上 可 能 表示 被 邀请 的 学 术 研 
究 领 域 的 数量 。 

有 时 候 ， 聚 类 数 是 由 业务 需求 或 者 分 析 动 机 所 决定 的 。 例 如 ， 在 会 议 大 厅 中 的 表格 数量 
决定 了 需要 根据 数据 科学 会 议 与 会 者 清单 创建 多 少 组 学 者 。 将 这 种 思想 拓展 到 业务 案例 中 ， 
如 果 营 销 部 门 只 有 用 来 创建 3 个 不 同 活动 的 资源 ， 那 么 设 定 厂 3 来 将 所 有 潜在 的 客户 分 配 到 
3 个 有 吸引 力 活动 的 任意 一 个 就 可 能 是 有 意义 的 。 

如 果 没 有 任何 先 验 知识 ， 一 个 经 验 规则 建议 设置 等 于 Jn2， 其 中 ，n 表示 数据 集中 的 案 
例 总 数 。 然 而 ， 该 经 验 规则 可 能 会 导致 大 型 数据 集中 的 聚 类 数 比较 庞大 。 幸 运 的 是 ， 还 有 其 
他 的 统计 方法 可 以 帮助 找到 合适 的 人 均值 聚 类 集 。 

称 为 肘 部 法 (elbow method) 的 技术 试图 度量 对 于 不 同 的 大 值 ， 类 内 部 的 同 质 性 或 者 异 质 
性 是 如 何 变化 的 。 如 下 图 所 示 ， 随 着 额外 的 类 的 加 入 ， 类 内 部 的 同 质 性 应 该 是 期 望 上 升 的 ; 
类 似 地 ， 异 质 性 也 将 随 着 越 来 越 多 的 类 而 持续 减 小 。 因 为 你 可 以 持续 地 看 到 改进 直到 每 个 案 
例 在 一 个 由 他 自己 构成 的 类 中 ， 所 以 我 们 的 目标 不 是 最 大 化 同 质 性 或 者 最 小 化 异 质 性 ， 而 是 
要 找到 一 个 4， 使 得 高 于 该 值 之 后 的 收益 会 发 生 递 减 。 这 个 大 值 称 为 肘 部 点 (elbow point)， 因 
为 它 看 起 来 像 一 个 人 的 肘 部 。 





类 内 部 的 类 内 部 的 
同 质 性 同 质 性 
肘 部 点 
k k 


有 许多 用 来 度量 类 内 部 同 质 性 和 蜡 质 性 的 统计 量 可 以 与 肘 部 法 一 起 使 用 。 然 而 ， 在 实 
践 中 ,反复 测试 大 量 的 值 并 不 总 是 可 行 的 。 部 分 原因 是 因为 对 大 型 数据 集 进行 聚 类 相当 费 
时 ， 而 对 数据 进行 重复 聚 类 则 会 更 加 糟糕 。 不 管 怎样 ， 要 求 获 得 类 最 优 解 集 的 应 用 是 相当 军 
见 的 。 在 大 多 数 聚 类 应 用 中 ， 基 于 方便 选择 一 个 值 就 足够 了 ， 而 不 需要 基于 严格 的 性 能 要 
求 来 选择 上 值 . 

对 于 大 量度 量 聚 类 性 能 方法 的 全 面 回 顾 ， 可 查看 : On clustering validation 

NR. ~ techniques, Journal of Intelligent Information Systems Vol. 17, pp. 107-145, by M. 

Halkidi, Y. Batistakis, and M. Vazirgiannis (2001)。 


设 定 值 本 身 的 过 程 有 时 候 可 能 会 导致 有 趣 的 见解 。 通 过 观察 当 k 值 变化 时 ， 类 的 特征 
是 如 何 改 变 的 ， 就 可 以 推断 出 数据 自然 地 定义 边界 的 地 方 。 比 较 紧 密集 聚 的 组 变化 不 会 太 
大 ， 而 具有 较 少 同 质 的 组 将 会 先 形成 ， 然 后 随 着 时 间 的 推移 而 解散 。 

一 般 情 况 下 ， 在 设 定 正确 k 值 上 不 要 花费 太 多 时 间 可 能 是 明智 的 。 下 一 个 例子 将 会 演示 
如 何 把 从 好 莱 坞 电影 借鉴 来 的 一 点 学 科 知识 用 来 设 定 可 行 的 上 值 ， 并 且 会 发 现 有 趣 的 类 。 因 
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为 聚 类 是 无 监督 的 ， 所 以 聚 类 任务 实际 上 是 关于 你 是 如 何 理解 从 算法 的 结果 中 所 获得 的 见 
解 的 。 


9.1.3 用 k 均值 聚 类 探寻 青少年 市 场 细 分 

与 朋友 在 社交 网 站 (比如 ，Facebook 和 MySpace) 上 进行 交互 已 经 成 为 一 种 世界 各 地 青 
少年 的 成 年 礼 。 这 些 青 少年 拥有 相对 大 量 的 可 支配 收入 ， 是 令 商 家 垂 沽 的 一 群 人 ， 商 家 和 希望 
向 他 们 销售 小 吃 、 饮 料 、 电 子 产 品 和 卫生 用 品 。 

数 百 万 的 青少年 对 这 些 网 站 的 浏览 已 经 吸引 了 营销 者 的 注意 ， 这 些 营 销 者 正在 努力 寻找 
以 期 在 竞争 日 益 激烈 的 市 场 中 获得 一 席 之 地 。 获 得 这 一 竞争 优势 的 一 种 方法 就 是 确定 有 相似 口 
味 的 青少年 的 细 分 ， 从 而 他 们 的 客户 可 以 避免 将 广告 投 给 那些 对 正在 销售 的 产品 不 感 兴趣 的 青 
少年 。 例 如 ， 一 种 运动 饮料 对 于 那些 对 运动 毫 无 兴趣 的 青少年 很 有 可 能 是 一 份 艰难 的 销售 。 

鉴于 青少年 社交 网 络 服务 (Social Networking Service，SNS) 页 面 的 文字 ， 我 们 可 以 确定 
有 着 相同 兴趣 (比如 ， 体 育 、 宗 教 或 者 音乐 ) 的 团体 。 聚 类 可 以 自动 执行 发 现 这 一 人 群 自然 
细 分 的 进程 。 然 而 ， 这 需要 由 我 们 来 决定 聚 类 所 得 到 的 类 是 否 是 令 人 感 兴趣 的 ， 以 及 如 何 使 
用 它们 来 做 广告 。 让 我 们 从 头 至 尾 来 尝试 一 下 这 个 过 程 。 


9.1.4 第 1 步 一 一 收集 数据 


在 本 次 分 析 中 ,我 们 将 使 用 一 个 代表 30 000 名 美国 高 中 生 的 随机 案例 数据 集 ， 这 些 高 中 
生 于 2006 年 就 在 知名 的 社交 网 络 服务 中 保存 个 人 资料 。 为 了 保护 用 户 的 匿名 性 ， 社 交 网 络 服 
务 将 保持 匿名 。 然 而 ， 在 收集 数据 时 ， 对 于 美国 的 青少年 来 说 社交 网 络 服务 (SNS ) 是 一 个 很 
受 欢 迎 的 网 站 。 因 此 ,假设 这 些 资料 代表 了 2006 年 相当 广泛 的 美国 青少年 案例 是 合理 的 。 


该 数据 集 是 在 圣母 大 学 (University of Notre Dame) 对 于 青少年 的 身份 进行 
区 社会 研究 时 编制 的 。 如 果 你 要 将 该 数据 用 于 研究 目的 ， 请 引用 这 本 书 的 章 
N 节 。 完 整 的 数据 集 可 以 从 Packt 出 版 社 的 网 站 获得 ， 其 文件 名 为 snsdata . 
CSV。 为 了 以 交互 的 方式 继续 分 析 ， 本 章 假定 你 已 经 将 该 文件 保存 在 及 工作 
目录 中 


这 些 数据 均匀 采样 于 4 个 高 中 毕业 年 份 ( 2006 一 2009 )。 在 数据 收集 时 的 它们 来 自 于 高 
中 四 年 级 、 三 年 级 、 二 年 级 和 一 年 级 。 使 用 自动 化 的 网 络 息 虫 ， 社 交 网 络 服务 文件 就 会 全 文 
下 载 ， 并 且 每 个 青少年 的 性 别 (gender)、 年 龄 (age) 以 及 社交 网 络 服务 上 的 交友 数 (number of 
SNS friends) 都 会 被 记录 。 

文本 挖掘 工具 可 用 来 将 剩余 的 社交 网 络 服务 页 面 内 容 划分 成 单词 。 从 出 现在 所 有 页 面 的 
前 500 个 单词 中 ，36 个 单词 被 选 来 代表 5 大 兴趣 类 ， 即 课外 活动 (extracurricular activity)、 时 
尚 ( fashion)、 宗 教 ( religion)、 浪 漫 (romance) 和 反 社 会 行为 (antisocial behavior)。 这 36 个 
单词 包括 足球 (football)、 性 感 (sexy)、 亲 吻 (kissed)、 圣 经 (bible)、 购 物 (shopping)、 死 亡 
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( death) 和 药物 ( drugs) 等 单词 。 对 每 个 人 来 说 ， 最 终 的 数据 集 表 示 每 个 单词 出 现在 个 人 社交 
网 络 服务 文件 中 的 次 数 。 


9.1.5 第 2 步 一 一 探索 和 准备 数据 
我 们 可 以 使 用 read. csv() 的 默认 设置 将 数据 加 载 到 数据 框 中 : 
> teens <- read.csv("snsdata.csv') 
让 我 们 也 来 快速 看 一 看 数据 的 细节 。str() 输出 的 前 几 行 如 下 所 示 : 


> str(lteens) 


'data.frame': 30000 obs. of 40 variables: 
$ gradyear : int 2006 2006 2006 2006 2006 2006 2006 2006 ... 
$ gender : Factor mW/ 2 levels "F","M": 2121NMAl12.. 
$ age 3 Hum 19 L808 4183 L809 19 ssn 
$ friends Lt 70 859° 0 和 0 142 72 17 52 39 0.: 
$ basketball : int 0000000000 ... 
正如 我 们 此 前 所 期 望 的 ， 该 数据 包含 了 30 000 名 青少年 ， 其 中 4 个 变量 表示 个 人 特征 ， 
36 个 单词 表示 兴趣 。 


你 注意 到 gender 变量 有 什么 奇怪 的 吗 ? 如 果 你 仔细 看 ， 你 可 能 会 注意 到 NA 相对 于 
值 1 和 2， 它 代表 的 是 完全 不 同 的 内 容 。R 用 它 来 告诉 我 们 该 记录 有 一 个 缺失 值 (missing 
value) 一 一 我 们 不 知道 这 个 人 的 性 别 (gender)。 直 到 现在 ,我 们 还 没有 处 理 过 缺失 数据 ， 但 是 
对 于 许多 类 型 的 分 析 来 说 ， 它 可 能 是 一 个 很 重要 的 问题 。 

让 我 们 来 看 一 看 这 个 问题 有 多 严重 。 一 种 方法 就 是 使 用 table () 命令 ， 如 下 所 示 : 

> table (teens$gender) 


F M 
22054 5222 


尽管 这 告诉 我 们 存在 的 F 和 M 值 有 多 少 个 ， 但 是 table () 函数 排除 了 值 NA， 而 不 是 
将 其 作为 一 个 单独 的 值 。 为 了 包含 值 NA (如 果 有 的 话 )， 只 需要 添加 一 个 额外 的 参数 : 


> table (teens$gender, useNA = "ifany") 
F M <NA> 
22054 5222 2724 


这 里 ， 我 们 看 到 有 2724 条 记录 ( 9%) 缺失 了 性 别 (gender) 数据 。 但 有 趣 的 是 ， 在 社交 
网 络 服务 数据 中 ， 女 性 是 男性 的 4 倍 多 ， 即 男性 并 不 像 女性 那样 倾向 于 使 用 社交 网 络 服务 网 
站 。 

如 果 你 查看 了 数据 框 teens 中 的 其 他 变量 ， 你 将 会 发 现 除 了 性 别 ( gender) 变量 之 外 ， 
只 有 年 龄 (age) 变量 有 缺失 值 。 对 于 数值 型 数据 ，summary () 命令 会 告诉 我 们 缺失 值 NA 
的 数量 : 


> summary (teens$age) 
Min. lst Qu. Median Mean 3rd Qu. Max. NA's 
3.086 16.310 17.290 17.990 18.260 106.900 5086 
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对 于 年 龄 ( age) 变量 ， 共 有 5086 条 记录 ( 17%) 有 缺失 值 。 令 人 担心 的 一 个 事实 是 最 
小 值 和 最 大 值 似乎 是 不 可 信 的 ， 一 个 3 岁 或 者 一 个 106 岁 的 人 就 读 于 高 中 是 不 可 能 的 。 为 了 
确保 这 些 极端 值 对 分 析 不 会 造成 问题 ， 需 要 在 继续 讨论 之 前 ， 清 除 它 们 。 

对 于 高 中 生 ， 一 个 合理 的 年 龄 范围 应 该 包括 那些 至 少 13 岁 ， 还 没有 超过 20 岁 的 学 生 ， 
任何 落 在 这 个 范围 之 外 的 年 龄 值 将 会 与 缺失 数据 一 样 处 理 一 一 我 们 不 能 相信 提供 的 这 些 年 
龄 。 为 了 对 年 龄 (age) 变量 重新 编码 ， 可 以 使 用 ifelse () 函数 ， 如 果 年 龄 (age) 大 于 等 于 
13 岁 目 小 于 20 岁 ， 就 将 teen$age 值 赋 给 teen$age， 否则 ， 赋 值 为 NA: 


> teens$age <- ifelse(teens$age >= 13 & teens$age < 20, 
teens$age, NA) 


通过 复查 summary () 的 输出 ， 现 在 我 们 可 以 看 到 年 龄 (age) 的 范围 服从 一 个 看 上 去 更 
像 一 个 真实 高 中 学 生 的 分 布 : 


> summary (teens$age) 
Min. lst Qu. Median Mean 3rd Qu. Max . NA's 
13.03 16.30 17.26 7 .25 18 .22 20 .00 5523 


不 幸 的 是 ， 现 在 已 经 导致 了 一 个 更 大 的 缺失 数据 问题 。 在 继续 分 析 之 前 ,需要 找到 一 种 
方法 来 处 理 这 些 缺 失 值 。 


1. 数据 准备 一 一 缺失 值 的 虚拟 编码 


一 种 简单 的 处 理 缺 失 值 的 方法 就 是 排除 具有 缺失 值 的 记录 。 然 而 ， 如 果 你 全 面 地 考虑 过 
这 种 做 法 的 负面 影响 ， 在 这 样 做 之 前 ， 你 可 能 需要 慎重 (我 这 里 说 这 种 方法 很 简单 ， 但 是 我 
从 来 没 说 这 是 一 个 好 的 方法 )。 该 方法 的 问题 在 于 即使 缺失 值 不 是 太 多 ， 你 就 非常 快速 地 排 
除了 大 部 分 数据 。 

例如 ， 假 设 在 数据 中 ， 性 别 变量 的 值 为 NA 的 学 生 与 那些 缺失 年 龄 (age) 数据 的 学 生 是 完 
全 不 同 的 。 这 将 意味 着 通过 排除 那些 要 么 缺失 性 别 ( gender) 值 ， 要 么 缺失 年 龄 (age) 值 的 记 
录 ， 你 将 排除 26% 的 数据 ， 即 9% 与 17% 的 和 ( 9%+17%=26%)， 超 过 7500 条 记录 ， 而 这 
是 在 只 有 两 个 变量 有 缺失 数据 的 情况 下 。 数 据 集中 存在 的 缺失 值 的 数量 越 多 ， 任 意 给 定 的 记 
录 被 排除 的 可 能 性 就 越 大 。 很 快 ， 你 将 只 剩 下 一 个 数据 的 微小 子 集 ， 或 者 更 糟糕 的 是 ， 剩 余 
的 记录 系统 性 的 不 同 于 总 体 或 者 不 能 代表 总 体 。 

对 于 分 类 数据 像 性 别 (gender) 这 样 的 变量 ， 另 一 种 解决 方法 就 是 将 缺失 值 作为 一 个 单 
独 的 类 别 。 例 如 ， 除 了 局 限 在 限制 为 女性 (female) 和 男性 (male) 两 个 取 值 外 ,我们 可 以 增 
加 一 个 额外 的 水 平 值 “unknown”( 未 知 )。 与 此 同时 ， 我 们 还 应 该 利用 虚拟 编码 ， 这 在 第 3 
章 中 有 过 深入 的 介绍 ， 就 是 将 名 义 的 性 别 (gender) 变量 转化 为 可 以 用 于 距离 计算 的 数值 形 
式 的 变量 。 

除了 有 一 个 水 平 值 被 拿 出 来 作为 参照 组 以 外 ， 虚 拟 编码 涉及 为 名 义 特征 中 的 每 个 水 
平 值 单独 创建 一 个 取 值 为 1 或 者 0 的 二 元 虚拟 变量 。 有 一 个 类 水 平 值 被 排除 在 外 ， 因 为 它 
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可 以 通过 其 他 类 的 水 平 值 来 进行 推断 。 人 例如， 如果 有 人 人 性别 既 不 是 女性 (female) 也 是 未 知 
(unknown) 的 ， 则 他 们 的 性 别 一 定 是 男性 (male)。 因 此 ， 我 们 只 需要 为 女性 (female) 和 未 知 
(unknown) 的 性 别 创建 虚拟 变量 : 


> teens$female <- ifelse(lteens$gender == "F" & 
!is.nal(lteens$gender), 1, 0) 
> teens$no gender <- ifelsel(lis.nalteens$gender), 1, 0) 
第 一 个 语句 表示 如 果 性 别 等 于 F 且 不 等 于 NA， 则 teens$female 赋值 为 1， 否 则 赋值 
为 0。 第 二 个 语句 表示 is .na () 男 数 用 来 检测 性 别 (gender) 是 否 等 于 NA， 如 果 is.na() 
返回 TRUE， 则 teens$no_gender 赋值 为 1， 否 则 赋值 为 0。 为 了 证 实 我 们 所 做 的 工作 是 
正确 的 ， 让 我 们 将 构建 的 虚拟 变量 与 原始 的 gender 变量 进行 比较 : 
> table (teens$gender, useNA = "ifany") 
F M <NA> 
22054 5222 2724 
> table (teens$female, useNA = "ifany") 
0 1 
7946 22054 
> table (teens$no gender, useNA = "ifany") 


0 不 
27276 2724 


因为 在 teens$female 和 teens$no_gender 中 值 为 1 的 数量 与 初始 编码 中 F 和 NA 值 
的 数量 是 一 致 的 ， 所 以 我 们 应 该 可 以 信任 上 述 的 工作 。 


2. 数据 准备 一 一 插 补缺 失 值 


接 下 来 ， 让 我 们 来 消除 关于 年 龄 (age) 变量 的 5523 个 缺失 值 。 因 为 年 龄 (age) 是 数值 型 
的 ， 所 以 给 未 知 值 创建 一 个 额外 的 类 别 是 没有 意义 的 一 一 那么 相对 于 其 他 的 年 龄 (age) 值 ， 
你 将 “unknown” (未 知 ) 排 在 哪里 呢 ? 取 而 代 之， 我 们 将 使 用 一 种 称 为 插 补 法 (imputation) 
的 不 同 策略 ， 插 补 法 依据 可 能 的 真实 值 的 猜测 来 填补 缺失 值 。 

你 是 否 能 想到 一 种 方法 ， 从 而 我 们 能 够 使 用 社交 网 络 服务 数据 使 得 一 个 受过 教育 的 个 人 
可 以 对 一 个 青少年 的 年 龄 做 出 猜测 吗 ? 如 果 你 想到 使 用 毕业 的 年 份 ， 那 么 你 已 经 有 了 好 的 想 
法 ， 在 一 个 毕业 生 队 列 中 , 大 部 分 学 生 都 是 在 同一 年 内 出 生 的 。 如 果 我 们 能 够 找 出 每 一 个 队 
列 中 具有 代表 性 的 年 岭 ， 那么 我 们 将 对 那 年 毕业 的 学 生 的 年 岭 有 一 个 相当 合理 的 估计 。 

找到 具有 代表 性 值 的 一 种 方法 就 是 通过 计算 平均 值 。 如 果 我 们 像 之 前 的 分 析 中 所 做 的 那 
样 尝 试 应 用 mean () 函数 ， 就 会 有 一 个 问题 : 


> mean (teenss$age) 
[1] NA 


问题 在 于 ， 对 包含 缺失 数据 的 向 量 ， 其 均值 是 无 法 定义 的 。 因 为 年 龄 (age) 包含 缺失 值 ， 
所 以 mean (teens$age) 返回 一 个 缺失 值 。 在 计算 均值 之 前 ， 可 以 通过 添加 一 个 额外 的 参 
数 来 去 除 缺 失 值 ， 从 而 修正 这 个 问题 : 
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> meanl(lteens$age, na.rm = TRUE) 
[1] 17.25243 


这 表明 在 我 们 的 数据 中 ， 学 生 的 平均 年 龄 大 约 为 17 岁 。 这 里 我 们 只 是 达到 了 部 分 目的 ， 
我 们 真正 需要 的 是 每 一 个 毕业 年 份 的 年 龄 平均 值 。 你 也 许 会 想 去 计算 4 次 均值 。 但 R 的 优点 
是 它 通常 有 一 种 更 有 效 的 方式 。 在 这 种 情况 下 ,aggregate () 函数 是 完成 这 项 工作 的 工具 ， 
它 可 以 为 数据 的 子 组 计算 统计 量 。 这 里 ,在 去 除 NA 值 后 ， 它 计算 毕业 年 份 ( gradyear) 的 不 
同 水 平 值 的 年 龄 均值 : 

> aggregate (data = teens, age ~ gradyear, mean, na.rm = TRUE) 
gradyear age 

2006 18.65586 

2007 17.70617 


2008 16.76770 
22009 15,81957 


毕业 年 份 每 变化 大 约 一 年 ， 平 均 年 龄 就 会 不 同 。 这 一 点 并 不 令 人 惊讶 ， 而 一 个 有 用 的 发 
现 证 明了 我 们 的 数据 是 合理 的 。 

aggregate () 的 输出 在 一 个 数据 框 中 ， 它 是 人 们 可 以 读 取 的 ,但 是 还 需要 额外 的 工作 
来 把 它 合 并 到 我 们 的 原始 数据 中 。 作 为 一 种 替代 方法 ， 可 以 使 用 ave () 函数 ,该 函数 返回 
一 个 具有 重复 的 组 均值 的 向 量 ， 使 得 结果 在 长 度 上 等 于 原始 向 量 的 长 度 : 


> ave age <- ave(teens$age, teens$gradyear, FUN = 
function(x) mean(x, na.rm = TRUE)) 


为 了 将 这 些 均值 插 补 到 缺失 值 中 ， 需 要 再 一 次 使 用 ifelse () 函数 ， 仅 当 原 始 的 年 龄 (age) 
值 为 NA 时 ， 调 用 ave_age 的 值 : 
> teens$age <- ifelsel(is.nal(teens$age), ave age, teens$age) 


summary () 的 结果 表明 现在 已 经 消除 了 缺失 值 : 


> summary (teenss$age) 
Min. lst Qu. Median Mean 3rd Qu. Max . 
13.03 16.28 17.24 17.24 LS 20 20 .00 


随 着 用 于 分 析 的 数据 已 经 准备 好 ， 我 们 开始 准备 深入 到 该 项 目的 有 趣 部 分 。 让 我 们 来 看 
看 前 面 的 努力 是 否 已 见 成 效 。 


9.1.6 ”第 3 步 一 一 基于 数据 训练 模型 


为 了 将 青少年 进行 市 场 细 分 ， 我 们 使 用 stats 添加 包 中 的 一 个 k 均值 实现 ， 该 添加 包 
应 该 包含 在 R 的 默认 安装 中 。 如 果 碰 巧 你 没有 这 个 包 ， 你 可 以 像 安装 任何 其 他 的 添加 包 一 样 
安装 该 添加 包 ， 并 使 用 library (stats) 命令 来 加 载 这 个 包 。 尽 管 k 均值 函数 在 不 同 的 民 
添加 包 中 并 不 缺乏 ,但 是 stats 添加 包 中 的 kmeans () 函数 是 广泛 使 用 的 ， 并 且 它 提供 了 
一 个 平凡 的 算法 实现 。 


本 WD 
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聚 类 语法 
应 用 stats 添加 包 中 的 函数 kmeans() 


建立 模型 ; 

myclusters <- kmeans ( mydata, k) 

e mydata: 是 包含 需要 聚 类 的 实例 的 一 个 矩阵 或 者 数据 框 

。 k: 给 定 需要 的 类 的 个 数 

该 函数 返回 一 个 含有 聚 类 结果 的 聚 类 对 象 

检验 聚 类 结果 : 

e myclusters$cluster 是 kmeans () 函数 所 给 出 的 类 成 员 向 量 

e myclusters$centers 是 含有 每 个 类 组 合 和 每 一 个 特征 的 均值 的 一 个 矩阵 
e myclusters$size 给 出 每 一 个 类 中 实例 的 个 数 

例子 : 


teen clusters <- kmeans (teens, 5) 














teens$cluster id <- teen clusters$cluster 


kmeans () 函数 需要 一 个 只 包含 数值 型 数据 的 数据 框 和 一 个 用 来 指 类 的 期 望 数目 的 参 
数 。 如 果 你 已 经 准备 好 这 两 部 分 ， 那么 真正 建立 模型 的 过 程 是 很 简单 的 。 麻 烦 的 是 选择 数据 
和 类 的 正确 组 合 是 一 门 世 术 ， 有 时 候 会 陷入 到 大 量 的 试验 和 错误 中 。 

为 了 开始 聚 类 分 析 ， 我 们 将 只 考虑 36 个 特征 ， 这 些 特 征 代表 出 现在 社交 网 络 服务 青 少 
年 资料 中 的 不 同 兴 趣 数 。 为 了 方便 ， 让 我 们 来 创建 一 个 只 包含 这 些 特 征 的 数据 框 : 

> interests <- teens[5:40] 


在 使 用 距离 计算 分 析 之 前 ， 通 常 采用 的 做 法 是 将 特征 标准 化 或 者 z-score 标准 化 以 便 使 
得 每 个 特征 具有 相同 的 尺度 。 如 果 这 样 做 ， 你 就 可 以 避免 这 样 的 问题 ， 即 一 些 特征 只 是 因为 
相对 于 其 他 特征 有 更 大 的 值 ， 因 而 在 聚 类 中 起 主导 作用 。 

如 果 你 回想 第 3 章 ，z-score 标准 化 就 是 重新 调整 特征 以 使 得 它们 的 均值 为 0， 标准 差 为 
1。 这 种 转化 从 某 种 意义 上 改变 了 特征 的 解释 含义 ， 但 或 许 在 这 里 比较 有 用 。 特 别 地 ， 如 果 
有 人 在 他 们 的 个 人 资料 中 总 共 提 到 3 次 足球 ,那么 如 果 没 有 额外 的 信息 ,我们 无 法 知道 相对 
于 他 们 的 同龄 人 来 说 ， 他 们 是 更 喜欢 足球 ， 还 是 更 不 喜欢 足球 。 另 一 方面 ， 如 果 z-score 标准 
化 后 的 值 为 3， 我们 就 可 以 知道 他 们 提 到 的 足球 次 数 比 一 般 的 青少年 更 多 。 

为 了 将 z-score 标准 化 应 用 于 数据 框 jnterests， 我们 可 以 使 用 带 有 lapply () 的 scale () 
函数 ， 如 下 所 示 : 


> interests 2z <- as.data.frame (lapply (interests, scale)) 





C&C 因为 1apply() 返回 一 个 和 矩阵， 所 以 它 必 须要 使 用 as .data.frame() 
\ 突 二 加 炒 三 落地 将 结果 转换 为 数据 杠 的 形式 ， 


我 们 最 后 的 决定 涉及 确定 使 用 多 少 类 来 细 分 数据 。 如 果 我 们 使 用 太 多 的 类 ， 我 们 可 能 会 
发 现 它们 过 于 具体 而 没什么 用 ; 相反 ,选择 过 少 的 类 可 能 会 导致 异 质 分 组 。 使 用 不 同 的 上 值 
进行 试验 ， 你 应 该 会 感到 轻松 ， 如 果 不 喜 欢 得 到 的 结果 ， 你 可 以 很 轻松 地 尝试 另 一 个 上 值 并 
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重新 开始 。 


~- 汪 、 如 果 你 对 于 人 口 的 分 析 很 熟悉 ， 那 么 选择 类 的 数量 会 比较 容易 ; 或 者 有 对 关 
于 自然 分 组 的 真实 数量 的 预感 也 可 以 为 你 节省 一 些 试验 和 错误 。 


为 了 帮助 我 们 预测 数据 中 类 的 数量 ， 我 会 遵从 一 部 我 最 喜欢 的 电影 ， 即 1985 年 John 
Hughes 的 成 年 喜剧 ，The Breakfast Club (早餐 俱乐部 )。 在 这 部 电影 中 ， 将 符合 年 龄 的 高 中 
生 特征 确定 为 5 个 方面 的 典型 类 型 : 聪明 人 ( Brain)、 运 动员 ( Athlete)、 没 有 特征 〈basket 
case)、 公 主 ( Princess) 和 罪犯 (Criminal)。 考 虑 到 这 些 身份 在 所 有 流行 的 青少年 小 说 中 比较 
盛行 ， 因 此 对 于 大 值 ，$ 似乎 是 一 个 相当 合理 的 起 始 值 。 

为 了 将 teens 划分 成 5 个 类 ， 可 以 使 用 下 面 的 命令 : 

teen clusters <- kmeans (interests z, 5) 


这 样 就 将 k 均值 聚 类 的 结果 保存 到 了 一 个 名 为 teen_clusters 的 对 象 中 。 


9.1.7 第 4 步 一 一 评估 模型 的 性 能 

评估 聚 类 的 结果 有 一 定 的 主观 性 。 最 终 ， 该 模型 的 成 功 或 者 失败 取决 于 类 对 于 他 们 预期 
目的 是 否 有 用 。 因 为 本 次 分 析 的 目标 是 为 了 确定 具有 相似 兴趣 的 青少年 的 分 类 以 达到 营销 的 
目的 ， 所 以 我 们 将 在 很 大 程度 上 从 定性 的 方面 来 度量 我 们 的 成 功 。 对 于 其 他 的 聚 类 应 用 ， 可 
能 需要 更 多 的 定量 措施 来 度量 成 功 。 

评估 一 个 类 是 否 有 用 的 最 基本 方法 之 一 就 是 检查 落 在 每 一 组 中 的 案例 数 。 如 果 类 的 案例 
数 过 多 或 者 过 少 ， 那 么 这 些 类 不 太 可 能 会 有 用 的 。 为 了 获得 kmeans () 聚 类 的 大 小 ， 可 以 
使 用 teen clusters$size 分 量 ， 如 下 所 示 : 


> teen clusters$size 
[1] 3376 601 1036 3279 21708 


这 里 ,我 们 看 到 了 我 们 所 要 求 的 5 个 类 ， 最 小 的 类 包含 了 601 位 ( 2%) 青少年， 而 最 大 
的 类 包含 了 21 708 位 (72%) 青少年 。 虽然 大 的 类 有 点 令 人 担忧 ,但 是 如 果 没 有 仔细 检查 ， 
我 们 就 不 会 知道 这 是 不 是 表示 存在 着 问题 。 好 消息 ， 我 们 并 没有 发 现任 何 只 包含 一 个 人 的 
类 ， 尽 管 这 在 运用 k 均值 聚 类 时 偶尔 会 发 生 。 


人 鉴于 k 均 值 聚 类 的 随机 性 ， 如 果 你 的 结果 与 这 里 显示 的 结果 不 同 ， 不 必 惊 
慌 。 相 反 ， 可 以 认为 这 是 一 个 运用 你 的 分 析 技 能 来 获得 唯一 结果 的 机 会 。 





为 了 更 深入 地 了 解 类 ， 可 以 使 用 teen_clusters$centers 分 量 来 查看 聚 类 质心 的 坐标 ， 
前 8 个 特征 的 坐标 如 下 所 示 : 


> teen clusters$centers 

basketball football soccer softball 
1 0.02447191 0.10550409 0.04357739 -0.02411100 
2 -0.09442631 0.06927662 -0.09956009 -0.04697009 
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3 0.37669577 0.38401287 0.14650286 0.15136541 
4 1.12232737 1.03625113 0.53915320 0.87051183 
5 -0.18869703 -0.19317864 -0.09245172 -0.13366478 
volleyball swimming cheerleading baseball 
1 0.04803724 0.31298181 0.63868578 -0.03875155 
2 -0.07806216 0.04578401 -0.10703701 -0.11182941 
3 0.09157715 0.24413955 0.18678448 0.28545186 
4 0.78664128 0.11992750 0.01325191 0.86858544 
5 -0.12850235 -0.07970857 -0.10728007 -0.13570044 


输出 的 行 (编号 1 ~ 5 ) 指 的 是 类 ， 而 输出 中 的 数值 表示 位 于 该 列 顶 部 的 兴趣 变量 的 平 
均值 。 由 于 所 有 的 值 已 经 进行 了 z-score 标准 化 ， 所 以 负 值 表示 低 于 所 有 学 生 的 总 体 均值 ， 而 
正 值 表示 高 于 所 有 学 生 的 总 体 均值 。 

虽然 只 给 出 了 这 8 项 兴趣 ,但 是 我 们 已 经 可 以 推断 出 这 些 类 的 一 些 特征 。 在 所 有 列 出 来 
的 体育 运动 中 ， 除 了 啦啦队 (cheerleading) 兴趣 变量 之 外 ， 类 4 在 运动 项 目 上 数值 显著 大 于 均 
值 ， 表 明 该 组 可 能 包含 运动 员 (athletes)。 类 1 最 有 可 能 包含 提 到 的 啦啦队 (cheerleading)， 并 
且 其 在 兴趣 项 足球 (football) 中 超过 了 平均 水 平 。 

通过 这 种 方式 继续 研究 这 些 类 ， 可 以 构建 一 个 表 来 列 出 每 组 中 的 主要 兴趣 项 。 在 下 面 的 
图 表 中 ， 显 示 的 每 一 类 包含 最 有 可 能 与 其 他 类 区 分 开 来 的 特征 。 有 趣 的 是 ， 类 5 被 区 分 开 是 
由 于 它 的 特征 不 显著 这 个 事实 ， 在 每 一 个 度量 的 兴趣 活动 中 ， 它 的 特征 的 兴趣 水 平 都 低 于 平 
均值 ， 但 从 成 员 人 数 方面 来 说 ， 它 又 是 最 大 的 单一 类 。 一 种 潜在 的 解释 就 是 这 些 用 户 在 网 站 
上 创建 了 个 人 资料 (文件 )， 但 从 未 发 布 任何 兴趣 爱好 。 


类 1 类 类 去 
(2N=601) (3N=1036 ) (4N = 3279 ) 


(N=3376 ) 
游泳 (swimming) 乐队 (band) 运动 () 篮球 (basketball) 





























类 
(5N = 21708) 





?72 



























啦 啦 对 (cheerleading) 游行 (marching) 性 (sex) 橄榄 球 (football) 
聪明 (cute) 音乐 (music) 性 感 (sexy) 足球 (soccer) 
性 感 (sexy) 摇滚 乐 (rock) 受 欢 迎 (hot) 至 球 (softball) 
受 欢迎 (hot 亲吻 (kissed) 排球 (volleyball) 
跳舞 (dance) 跳舞 (dance) 运动 (Sports) 
打扮 (dress) 音乐 (music) 上 帝 (god) 

头发 (hair) 乐队 (band) 教堂 (church) 
商场 (mall) 筛子 (die) 基督 (Jesus) 
Hollister 牌 死亡 (death) 圣经 (bible) 
Abercrombie 牌 醉酒 (drunk) 

购物 (shopping) 吸毒 (drugs) 





服装 (clothes) 
公主 (Princess) 















聪明 人 (Brain) 罪犯 (Criminal) 运动 员 (Athlete) 


当 共 享 一 个 细 分 分 析 的 结果 时 ， 应 用 能 够 捕捉 群体 本 质 的 信息 标签 往往 是 有 
帮助 的 ， 就 像 这 里 用 到 的 The Breakfast Club (早餐 俱乐部 ) 中 的 分 类 。 而 添 
加 这 种 标签 的 风险 就 是 他 们 可 能 通过 定型 组 内 成 员 来 掩盖 组 之 间 的 细微 差别 。 


没有 特征 (basket case) 
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给 定 上 表 ， 一 个 营销 执行 主管 将 对 访问 社交 网 站 的 5 种 类 型 的 青少年 有 一 个 明确 的 描 
述 。 基 于 这 些 个 人 资料 ， 执 行 主管 可 以 有 针对 性 地 向 一 个 或 多 个 类 相关 的 产品 的 企业 销售 广 
告 思想 。 在 下 一 节 中 ， 为 了 这 些 用 途 ， 我 们 将 看 到 如 何 将 聚 类 的 标签 应 用 到 原始 的 群体 。 


9.1.8 第 5 步 一 一 提高 模型 的 性 能 

因为 聚 类 创造 了 新 的 信息 ， 所 以 一 聚 类 算法 的 性 能 至 少 在 某 种 程度 上 取决 于 这 些 类 本 身 
的 质量 以 及 如 何 处 理 这 些 信息 。 在 上 一 节 中 ， 我 们 已 经 证 明了 这 5 个 类 提供 了 关于 青少年 兴 
趣 的 有 用 的 并 且 新 颖 的 见解 。 从 这 方面 而 言 ， 聚 类 算法 似乎 表现 得 非常 好 。 因 此 ， 我 们 现在 
可 以 集中 精力 将 这 些 见 解 转化 为 行动 。 

首先 ， 将 把 这 些 类 应 用 回 完整 的 数据 集 。 当 创建 上 均值 聚 类 时 ， 函 数 存 储 了 一 个 名 为 
teens$cluster 分 量 ， 它 包含 了 对 于 案例 中 所 有 30 000 名 学 生 的 类 的 划分 配 ， 可 以 使 用 
下 面 的 命令 , 将 teens$cluster 作为 一 列 添加 到 数据 框 teens 中 : 

> teens$cluster <- teen clusters$cluster 

根据 这 一 信息 ， 可 以 确定 每 一 位 用 户 被 分 配 到 了 哪 一 类 中 。 例 如 ， 下 面 是 社交 网 络 服务 
数据 中 前 5 个 用 户 的 个 人 信息 : 


> teens[1:5, cl('"cluster", "gender", "age", "friends'")] 
cluster gender age friends 

主 5 M 18.982 7 

2 二 F 18.801 0 

3 5 M 18.335 69 

上 5 F 18.875 0 

号 3 <NA> 18.995 10 


使 用 之 前 我 们 用 过 的 aggregate () 也 数 ,我 们 同样 可 以 整体 上 查看 这 些 类 的 人 口 统计 
特征 。 根 据 聚 类 ， 类 之 间 每 一 类 的 年 龄 均值 变化 不 大 ， 尽 管 我 们 认为 不 同年 龄 不 一 定 在 兴趣 
上 有 系统 性 的 差异 。 其 描述 如 下 所 示 : 


> aggregate (daata = teens, age ~ cluster, mean) 
cluster age 
1 16.99678 
17.38765 
17. E0022 
17.09634 
17.29841 


WDDPpPp 
wD 


5 

另 一 方面 ， 根 据 聚 类 ， 每 一 类 的 女性 比例 会 有 一 些 显著 的 差异 。 这 是 一 个 有 趣 的 发 现 ， 
因为 我 们 没有 使 用 性 别 (gender) 数据 来 进行 聚 类 ， 但 这 些 类 对 于 性 别 (gender) 仍然 具有 非常 
强 的 预测 能 力 : 


> aggregate (data = teens, female ~ cluster, mean) 


cluster female 
1 1 0.8942536 
2 2 0 T7221298 
3 3 0.8001931 
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4 4 0.7130223 
5 5 0.7109821 


回想 一 下 ， 总 体 上 大 约 有 74% 的 社交 网 络 服务 用 户 为 女性 。 类 1 (所 谓 的 公主 ( Princess) 
组 ) 有 将 近 90% 的 用 户 为 女性 ; 而 类 2、 类 4 和 类 5 只 有 大 约 70% 的 用 户 为 女性 。 

考虑 到 在 性 别 预测 方面 的 成 功 ， 你 可 能 也 会 猜想 这 些 类 对 于 用 户 拥有 的 朋友 数量 的 预测 
能 力 。 这 个 假设 得 到 了 数据 的 支持 ， 如 下 所 示 : 

> aggregate (data = teens, friends ~ cluster, mean) 


cluster friends 
1 38.74733 


1 

2 2 32.88186 
， 3 30.57046 
4 4 36.14029 
5 5 27.85314 


平均 来 说 ， 公 主 ( Princess) 组 拥有 最 多 的 朋友 ( 38.7 )， 接 下 来 是 运动 员 ( Athlet) 组 和 
聪明 人 (Brain) 组 ,而 罪犯 (Criminal) 组 只 有 30.6， 没 有 特征 (Basket Case) 组 也 只 有 27.9。 
与 性 别 (gender) 一 样 ， 因 为 没有 将 朋友 的 数量 输入 聚 类 算法 中 ， 所 以 此 项 发 现 也 是 很 引 人 注 
目的 。 

组 内 成 员 身 份 、 性 别 和 朋友 的 数量 之 间 的 关系 表明 ， 这 些 类 是 非常 有 用 的 预测 因子 。 以 
这 种 方式 来 验证 这 些 类 的 预测 能 力 ， 使 得 将 这 些 类 在 推销 给 营销 团队 时 变 得 更 加 容易 ， 并 最 
终 提 高 算法 的 性 能 。 


9.2 总 结 


我 们 的 研究 结果 支持 了 一 句 流行 的 格言 :“ 物 以 类 聚 ， 人 以 群 分 ”。 通 过 使 用 机 器 学 习 对 
有 具有 相似 兴趣 的 青少年 进行 聚 类 ， 我 们 能 够 开发 一 门 关于 青少年 身份 的 类 型 学 以 便 对 个 人 特 
征 ( 比 如， 性 别 和 朋友 的 数量 ) 进行 预测 。 这 些 相 同 的 方法 也 可 以 应 用 于 其 他 具有 相似 结果 
的 背景 中 。 

本 章 只 是 介绍 了 聚 类 的 基本 原理 。 作 为 一 种 非常 成 熟 的 机 器 学 习 方法 , 上 均值 算法 有 无 
数 种 变 体 ， 还 有 很 多 其 他 可 以 给 任务 带 来 独特 见解 与 启发 的 方法 。 基 于 你 在 这 里 所 学 的 知 
识 ， 你 将 能 够 理解 和 运用 其 他 聚 类 方法 去 解决 新 的 问题 。 

在 下 一 章 中 ,我 们 将 开始 研究 用 于 度量 一 种 学 习 算 法 有 多 成 功 的 方法 ， 这 些 方 法 适用 于 
许多 机 器 学 习 任 务 。 尽 管 在 算法 的 应 用 过 程 中 ,我 们 一 直 做 出 努力 来 评估 学 习 算法 的 成 效 ， 
但 是 为 了 获得 最 高 级 别 的 性 能 ， 能 够 用 最 严格 的 条 件 来 定义 和 度量 这 些 学 习 算法 还 是 至 关 重 
要 的 . 
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模型 性 能 的 评价 


很 多 年 以 前 ， 只 有 富 人 才能 负担 得 起 受 教育 的 费用 。 那 时 ， 测 验 和 考试 并 不 是 用 来 评价 
学 生 的 。 相 反 ， 它们 用 来 评价 老师 ， 父 母 需要 知道 他 们 的 孩子 是 否 学 到 了 足够 多 的 知识 ， 从 
而 证 明 老 师 对 得 起 他 们 的 薪水 。 很 显然 ， 这 种 情形 多 年 以 来 发 生 了 改变 。 现 在 ， 类 似 的 评价 
方法 用 来 区 分 学 生 水 平 的 高 低 和 作为 进入 职业 生涯 或 者 继续 深造 的 筛选 工具 。 

考虑 到 这 种 方式 的 意义 ， 人 们 在 开发 精确 的 学 生 评价 方法 上 投入 了 大 量 的 努力 。 一 种 公 
平 的 评价 方式 要 包含 覆盖 面 广 泛 的 一 些 主题 ， 要 能 测试 出 真实 的 知识 水 平 而 不 是 赁 运气 的 猜 
测 。 这 个 评价 方式 的 问题 还 需要 能 使 得 被 测试 者 去 思考 以 前 没有 遇 到 过 的 难题 。 正 确 的 回答 
可 以 表明 该 学 生 能 够 将 知识 应 用 到 更 通用 的 领域 。 

类 似 于 编写 考试 问题 的 过 程 可 以 用 来 评估 机 器 学 习 算法 。 由 于 不 同 的 算法 具有 不 同 的 优 
点 和 缺点 ， 所 以 在 评价 算法 对 未 来 数据 的 性 能 时 需要 使 用 测试 来 展示 不 同 算法 之 间 的 差异 。 

本 章 将 提供 一 些 用 来 评价 机 器 学 习 算法 的 信息 ， 包 括 : 

口 为 什么 预测 准确 度 不 足以 度量 性 能 ， 以 及 替代 的 度量 性 能 的 方法 。 

口 用 来 确保 性 能 度量 方法 可 以 合理 地 反映 模型 对 于 未 知 数据 的 预测 能 力 的 方法 。 

口 如 何 使 用 R 将 这 些 更 有 用 的 度量 应 用 到 前 面 章节 中 学 习 的 预测 模型 中 。 

你 会 发 现 ， 与 学 习 某 个 主题 的 最 好 方法 是 尝试 将 其 教 给 其 他 人 一 样 ， 在 评价 机 器 学 习 算 
法 的 过 程 中 也 能 够 对 如 何 更 好 地 使 用 之 前 学 习 的 算法 有 更 深刻 的 理解 。 


10.1 度量 分 类 方法 的 性 能 
在 前 面 的 章节 中 ， 我 们 使 用 准确 度 来 度量 分 类 的 性 能 。 将 正确 预测 的 部 分 除 以 预测 的 总 
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数 得 到 的 数值 就 是 准确 度 。 该 数值 表示 分 类 器 正确 或 者 错误 分 类 的 百分比 。 例 如 ,假设 某 个 
分 类 器 能 够 准确 地 预测 100 000 个 新 生 儿 中 的 99 990 个 携带 或 者 不 携带 某 种 可 治疗 但 是 可 能 
致命 的 先天 缺陷 ， 那 么 意味 着 准确 度 为 99.99%， 而 错误 率 只 有 0.01%。 

虽然 看 上 去 这 是 一 个 非常 精确 的 分 类 器 ,但 是 明智 的 做 法 是 在 放心 地 把 孩子 的 生命 交 给 
这 个 测试 之 前 搜集 一 些 额外 的 信息 。 如 果 该 种 先天 缺陷 在 每 100 000 个 新 生 儿 中 只 有 10 例 又 
该 怎么 办 ? 如 果 不 考虑 任何 情况 全 部 预测 为 “没有 缺陷 " .该 测试 仍然 会 有 99.99% 的 准确 度 。 
既然 这 样 的 话 ， 该 分 类 器 即使 对 绝 大 多 数 的 数据 都 能 预测 正确 ， 但 对 于 其 最 初 打算 识别 新 生 
儿 先 天 缺陷 的 目的 却 不 管用 。 


< 性 、 这 是 类 不 平衡 问题 的 影响 之 一 ， 这 类 问题 指 的 是 当 数 据 中 有 很 大 一 部 分 记录 
属于 同一 个 类 别 时 造成 的 麻烦 。 


对 分 类 性 能 最 好 的 度量 方式 要 看 其 是 否 能 成 功 地 实现 预期 目标 。 因 此 ， 拥 有 能 够 度量 实 
用 性 而 不 是 原始 准确 度 的 模型 性 能 评价 方法 是 至 关 重 要 的 。 基 于 此 目的 ， 我 们 将 介绍 各 类 对 
来 源 于 混 靖 和 矩阵 这 一 熟悉 格式 表达 的 预测 性 能 的 度量 方式 。 在 开始 之 前 ， 我 们 需要 考虑 如 何 
为 性 能 评价 来 准备 分 类 的 结果 。 


10.1.1 在 R 中 处 理 分 类 预测 数据 

有 3 种 主要 的 数据 类 型 可 以 用 来 评价 分 类 器 : 

口 真实 的 分 类 值 。 

口 预测 的 分 类 值 。 

口 预测 的 估计 概率 。 

在 之 前 的 章节 里 ， 我 们 使 用 了 前 两 种 方法 。 思 路 是 维护 两 个 数据 向 量 : 一 个 用 来 保存 真 
实 的 分 类 值 ， 另 一 个 用 来 保存 预测 的 分 类 值 。 两 个 向 量 需 要 具有 相同 的 长 度 和 排列 顺序 。 预 
测 值 和 真实 值 可 以 存储 为 不 同 的 R 回 量 或 者 R 数据 框 中 的 不 同 列 。 这 两 种 方法 都 可 以 在 大 部 
分 的 R 函数 中 执行 。 

真实 的 分 类 值 直接 来 源 于 测试 数据 中 的 目标 变量 。 例 如 ， 测 试 数据 是 一 个 名 为 test_data 
的 数据 框 ， 目 标 变量 是 名 为 outcome 列 ， 可 以 使 用 类 似 actual_outcome <- test_ 
datas$outcome 的 命令 来 创建 一 个 真实 值 的 向 量 。 

预测 值 使 用 模型 来 得 到 。 在 大 多 数 机 器 学 习 的 R 添加 包 中 ， 可 以 将 predict () 函数 作 
用 到 某 个 模型 对 象 以 及 测试 数据 的 数据 框 来 得 到 预测 值 ， 例 如 predicted_ outcome <- 
predict (model, test data), 

到 目前 为 止 ， 我 们 只 使 用 了 数据 中 的 这 两 种 向 量 来 检查 分 类 方法 的 预报 能 力 。 但 是 隐藏 
在 背后 的 是 另 一 种 有 用 的 信息 。 尽 管 分 类 器 对 每 个 例子 做 出 了 统一 的 预测 ， 但 是 在 有 些 判 断 
上 显得 更 有 把 握 。 例 如 ， 一 个 分 类 器 可 以 有 99% 的 把 握 确信 和 包含 “免费 ”和 “铃声 ”等 词语 
的 短信 和 是 垃圾 信息 ,但 是 只 有 51% 的 把 握 确 信和 包含 “ 今 晚 ”的 短信 和 是 垃圾 信息 。 在 两 种 情况 
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下 ,分 类 器 都 预测 成 垃圾 信息 ,但 是 对 两 者 做 判断 的 确信 程度 差别 却 很 大 。 

研究 内 部 预测 概率 对 于 评估 模型 的 性 能 非常 有 用 ， 它 同时 也 是 第 三 种 形式 评估 数据 的 
来 源 。 如 果 两 个 模型 在 预测 时 发 生 了 相同 数目 的 错误 ， 但 是 其 中 一 个 能 够 更 准确 地 佑 计 它 的 
不 确定 性 ， 那 么 这 个 模型 就 是 更 智能 的 模型 。 理 想 的 分 类 器 在 做 出 正确 预测 时 能 够 非常 有 信 
心 ， 但 是 在 面 对 拿 不 准 的 情况 时 能 够 非常 谨慎 。 在 信心 和 说 慎之 间 的 平衡 是 模型 评价 中 的 一 
个 关键 部 分 。 

不 幸 的 是 ， 要 得 到 内 部 预测 概率 是 一 件 棘手 的 事情 ， 因 为 对 不 同 的 分 类 器， 计算 方法 是 
不 同 的 。 一 般 来 说 ,分 类 器 的 predict () 因数 可 以 指定 希望 的 预测 类 型 。 如 果 要 得 到 单一 
的 预测 类 别 (例如 垃圾 信息 或 者 有 用 信息 )， 可 以 设 定 为 "class' 类 型 。 如 果 要 得 到 预测 的 
概率 ， 可 以 设 定 prob、posterior、raw 或 者 probability 等 类 型 。 


省、 基本 上 本 书 出 现 的 所 有 分 类 器 都 提供 了 类 似 的 概率 ， 具 体 的 参数 使 用 方法 包 
含 在 介绍 每 个 模型 的 语法 介绍 中 。 


例如 ， 如 果 要 输出 朴素 贝 叶 斯 分 类 的 预测 概率 ， 可 以 参考 第 4 章 的 描述 。 我 们 可 以 在 
预测 函数 中 加 上 参数 type = "raw"。 例 如 , predicted prob <- predict (model, 


test data, type = "raw'")。 
类 似 地 ， 第 5 章 介 绍 的 C5.0 分 类 器 的 命令 是 : predicted prob <- predict (model, 
test data, type = “prob’”)。 


需要 记 住 的 是 ， 大 部 分 情况 下 ，predict () 函数 将 返回 对 结果 不 同 水 平 的 预测 概率 。 
例如 ， 在 结果 是 “ yes/no” 的 二 值 模型 中 ，predicted_prob 将 是 一 个 矩阵 或 者 数据 框 ， 
如 下 所 示 : 


> head (predicted prob) 


no yes 
1 :0-08082'72 Q..9191728 
21.0000000 0.0000000 
3 0.7064238 0.2935762 
4 0.1962657 0.8037343 
5 0.8249874 0.1750126 
6 1.0000000 0.0000000 


在 构建 测试 数据 集 时 要 当心 ， 从 而 确保 对 于 感 兴趣 的 类 别 使 用 了 正确 的 概率 。 为 了 避免 
混淆 ， 在 二 值 结果 的 情况 下 ， 建 议 在 以 上 两 个 输出 向 量 中 只 保留 一 个 。 

为 了 举例 描述 典型 的 测试 数据 ,我 们 将 使 用 第 4 章 开发 的 垃圾 短信 分 类 模型 判断 出 的 估 
计 为 垃圾 信息 的 概率 以 及 真实 类 别 和 预测 类 别 组 成 的 数据 框 进行 介绍 。 


\ 如果 要 运行 此 处 的 例子 ， 可 以 到 Packt 出 版 社 网 站 下 载 sms_results. 
QQ csV 数 据 文件 ， 然 后 使 用 命令 sms_results <- read.csv('sms_ 
results .csv") 加 载 该 数据 框 。 
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sms_results 数据 框 非常 简单 。 下 面 是 运行 的 命令 和 结果 ， 它 包含 了 3 个 具有 1390 
个 元 素 的 向 量 。 第 一 个 向 量 表示 短信 的 真实 类 别 (垃圾 信息 ( spam) 或 者 有 用 信息 (ham) )， 
第 二 个 向 量 表 示 模 型 的 预测 类 别 ， 第 三 个 变量 表示 该 短信 是 垃圾 信息 的 概率 : 


> head (sms results) 


actual type predict type prob_ spam 
1 ham ham 2.560231e-07 
2 ham ham 1.309835e-04 
3 ham ham 8.089713e-05 
4 ham ham 1.396505e-04 
5 spam spam 1.000000e+00 
6 ham ham 3.504181e-03 


注意 ， 当 预测 类 型 为 有 用 信息 (ham) 时 ，prob_spam 的 值 非常 接近 于 0。 相反 地 ， 当 
预测 类 型 为 垃圾 信息 (spam) 时 ，prob_spam 的 值 等 于 1， 这 意味 着 模型 有 100% 的 把 握 确 
定 该 条 短信 和 是 垃圾 信息 。 垃 圾 信息 的 估计 概率 值 如 此 极端 的 事实 说 明了 这 个 模型 对 于 它 的 决 
断 非常 有 信心 。 但 是 当 预 测 值 和 真实 值 不 同时 会 发 生 什么 情况 呢 ? 使 用 subset () 函数 来 找 
到 这 些 记录 : 


> head(subset (sms_results，actual _ type != predict type)) 
actual type predict type prob_spam 

53 spam ham 0.0006796225 

59 spam ham 0.1333961018 

3 spam ham 0.3582665350 

76 spam ham 0.1224625535 

81 spam ham 0.0224863219 

184 spam ham 0.0320059616 


可 以 发 现 这 些 概率 没有 那么 极端 ， 尤 其 是 第 73 行 ， 分 类 絮 觉 得 它 有 35% 的 概率 是 垃圾 
信息 ,但 是 仍然 把 它 归 类 为 有 用 信息 。 

前 面 的 6 个 例子 代表 了 短信 分 类 器 的 6 个 错误 。 尽 管 有 这 些 错 误 ， 模 型 是 否 仍然 有 用 ? 
我 们 可 以 通过 对 测试 数据 应 用 各 种 误差 度量 的 方法 来 回答 这 个 问题 。 事 实 上 ， 很 多 这 样 的 度 
量 方法 都 是 基于 我 们 在 之 前 的 章节 里 广泛 使 用 的 工具 : 


10.1.2 ”深入 探讨 混淆 矩阵 

混淆 和 矩阵 ( confusion matrix) 是 一 张 二 维 表 ， 它 按照 预测 值 是 否 匹 配 数据 的 真实 值 来 对 
预测 值 进行 分 类 。 该 表 的 第 一 个 维度 表示 所 有 可 能 的 预测 类 别 ， 第 二 个 维度 表示 真实 的 类 
别 。 虽 然 到 目前 为 止 我 们 只 见 过 2x2 的 混 靖 和 矩阵， 但 是 混淆 矩阵 也 可 以 用 于 预测 多 个 类 别 
的 模型 。 下 图 展示 了 我 们 熟悉 的 二 值 分 类 模型 的 混 清 和 矩阵。 对 于 三 值 分 类 模型 ， 将 是 类 似 
3 x3 的 混 消 和 矩阵 。 

当 预 测 值 和 真实 值 相 同时 ， 就 是 一 个 正确 的 分 类 。 正 确 的 预测 位 于 混淆 矩阵 的 对 角 线 上 
(标记 为 D)。 和 矩阵 非 对 角 线 上 的 元 素 (标记 为 X) 表示 预测 值 与 真实 值 不 相同 的 情况 ， 它 们 
是 错误 的 预测 。 对 分 类 模型 的 性 能 度量 基于 表 的 对 角 线 和 非 对 角 线 上 预测 值 的 个 数 : 
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两 个 类 的 情况 三 个 类 的 情况 
预测 类 别 预测 类 别 


A B 
Ox i 
A 
实际 类 别 实际 类 别 B 
, O 


最 常见 的 模型 性 能 度量 方式 主要 考虑 模型 在 所 有 的 分 类 中 识别 出 某 个 分 类 的 能 力 。 我 们 
感 兴趣 的 类 别称 为 阳性 (positive)， 其 他 所 有 类 别称 为 阴性 (negative)。 
对 于 阳性 或 阴性 这 样 的 术语 并 没有 隐 含 任何 的 价值 判断 (好 或 者 坏 )， 同 样 
也 没有 上 暗示 出 现 或 者 不 出 现 (先天 缺陷 或 者 没有 )。 我 们 甚至 可 以 把 任意 的 
类 别 当 作 阳性 的 结果 ， 比 如 在 预测 类 别 中 的 晴天 或 雨天 ， 狗 或 猫 。 








阳性 类 别 的 预测 值 和 阴性 类 别 的 预测 值 之 间 的 关系 可 以 用 一 个 2 x2 的 混淆 矩阵 来 描述 ， 
我 们 可 以 根据 预测 值 是 否 落 入 下 述 4 类 中 的 某 一 个 来 创建 这 个 表格 和 矩阵: 

口 真 阳 性 (True Positive，TP): 正确 的 分 类 为 感 兴趣 的 类 别 。 

口 真 阴性 (True Negative，TN): 正确 的 分 类 为 不 感 兴趣 的 类 别 。 

口 假 阳 性 (False Positive，FP): 错误 的 分 类 为 感 兴趣 的 类 别 。 

口 假 阴 性 (False Negative，FN): 错误 的 分 类 为 不 感 兴趣 的 类 别 。 

在 前 面 提 到 的 先天 缺陷 的 分 类 器 中 ， 混 清和 矩阵 把 模型 预测 的 先天 缺陷 的 状态 是 否 与 真实 
值 相 匹配 的 情况 制 成 了 表格 ， 如 下 图 所 示 。 预测 先天 缺陷 
10.1.3 ”使 用 混淆 矩阵 度量 性 能 


是 


使 用 2x2 的 混淆 和 矩阵， 可 以 用 公式 来 表示 预 


假 阳 性 


测 准 确 度 (accuracy， 有 时 也 称 为 成 功率 ): 


TP+TN 
TP+TN+FP+FN 

在 这 个 公式 中 ，TP、TN、FP 和 FN 指 的 是 模型 
的 预测 值 落 入 这 些 类 别 中 的 次 数 。 因 此 ， 准 确 度 表示 
真 阳性 和 真 阴性 的 数目 除 以 所 有 预测 值 的 个 数 。 

错误 率 (error rate)， 或 者 说 不 正确 分 类 的 比例 ， 定 义 如 下 : 


准确 度 = 
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FP+FN 
六 避让 

注意 ， 错 误 率 可 以 用 1 减 去 准确 度 来 得 到 。 直 观 的 理解 也 是 有 道理 的 ， 如 果 一 个 模型 有 
95% 是 预测 正确 的 ， 那 么 意味 着 5% 是 预测 错误 的 。 

有 一 种 快捷 得 到 混淆 矩阵 的 方法 是 使 用 table () 函数 。 这 种 方法 最 容易 被 记 住 ， 通 过 
计算 每 个 组 合 的 值 的 数目 来 得 到 一 一 实际 上 这 就 是 我 们 需要 的 混淆 矩阵 。 针 对 短信 数据 建立 
混 消 和 矩阵 的 命令 如 下 所 示 ， 表 中 的 数目 可 以 用 来 计算 准确 度 和 其 他 的 统计 量 : 

> table(lsms results$actual type, sms results$predict type) 

ham spam 


ham 1202 5 
spam 29 154 


如 果 想 得 到 具有 更 详细 输出 的 混淆 和 矩阵 ，gmodels 添加 包 中 的 CrossTable() 函数 
提供 了 高 度 可 定制 的 解决 方案 。 是 否 记 得 ， 第 一 次 使 用 这 个 函数 是 在 第 2 章 。 不 过 ， 如 果 没 
有 安装 该 添加 包 ， 需 要 使 用 命令 install .packages ("gmodels") 来 安装 它 。 

crossTable() 的 结果 默认 会 在 每 一 格 内 输出 这 一 格 的 数据 对 表 的 行 、 列 和 总 数 的 比 
值 ， 同 时 也 包含 每 行 每 列 的 总 数 。 代 码 如 下 所 示 ， 其 语法 和 table () 非常 类 似 : 


> library (gmodels) 
> CrossTable (sms results$actual type, sms results$predict type) 


结果 是 包含 更 多 详细 信息 的 混 消 矩阵 : 


Ce11 Contents 


| chi-square contribution | 
| / Row Total 
| N / Col Total | 
| N / Table Total 


Total Observations in Table: 1390 





| 
sms_resuits$actual_type | Pp | 
ham | 1202 5 | 1207 | 
16. 565 | 128.248 | | 
0.996 0.004 0.868 | 
0.976 0.031 | 
| 0.865 0.004 | | 
spam | 29 | 154 | 183 
| 109.256 | 845.876 
| 0.158 | 0.842 | 0.132 
| 0.024 | 0.969 | | 
| 0.021 | 人 LT | | 
Coiumn Total | 1231 | 159 | 1390 | 
| 0.886 0.114 | | 
re 二 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 | 
我 们 在 之 前 的 几 个 章节 中 使 用 过 crossTable () 函数 ， 所 以 现在 应 该 熟悉 这 里 的 输出 
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结果 。 如 果 忘 记 了 ， 可 以 通过 表格 的 关键 词 (标记 为 Cell Contents) 查询 索引 ， 它 们 对 
表格 中 每 个 数值 的 含义 进行 了 描述 。 

我 们 可 以 使 用 该 列 联 表 ( contingency table) 来 得 到 准确 度 和 错误 率 。 因 为 准确 度 的 公式 
是 (TP+TN)/(TP+TN+FP+FN)， 所 以 可 以 计算 : 


> (154 + 1202) / (154+ 1202 + 5 + 29) 
[1] 0.9755396 


我 们 同样 可 以 根据 公式 (FP +FN)/ (TP+TN+FP+FN) 来 计算 错误 率 : 


> (5 + 29) / (154 + 1202 + 5 + 29) 
[1] 0.02446043 


这 和 1 减 去 准确 度 的 结果 是 相同 的 : 


> 1 - 0.9755396 
[1] 0.0244604 


虽然 这 些 计算 过 程 看 起 来 非常 简单 ， 但 是 通过 练习 可 以 更 好 地 理解 混淆 和 矩阵 中 每 个 元 素 
相对 于 其 他 元 素 的 含义 。 在 下 一 节 中 ,我 们 将 看 到 这 些 相同 部 分 如 何 组 合成 不 同 的 方法 ， 提 
供 额 外 的 度量 性 能 的 方式 。 


10.1.4 ”准确 度 之 外 的 其 他 性 能 评价 指标 
如 果 要 对 每 一 种 度量 性 能 的 方法 都 进行 全 方位 的 描述 是 不 现实 的 。 数 不 清 的 度量 方法 被 
开发 出 来 ， 可 以 用 于 很 多 学 科 中 的 特定 需求 ， 尤 其 是 医学 、 信 息 检索 、 市 场 营 销 、 信 号 检测 
等 学 科 。 不 过 ,我 们 只 关注 在 机 器 学 习 文 献 中 被 广泛 引用 的 一 些 常 见方 法 。 
Max Kuhn 开发 的 分 类 和 回归 训练 添加 包 (caret) 包含 了 一 些 函 数 ， 可 以 用 来 计算 很 多 
这 样 的 性 能 度量 指标 。 该 添加 包 提 供 了 大 量 的 对 机 器 学 习 模 型 和 数据 进行 准备 、 训 练 、 评 估 
以 及 可 视 化 的 工具 。 除了 这 里 的 应 用 以 外 ,我 们 还 将 在 第 11 章 对 它 进行 更 广泛 的 应 用 。 在 
开始 之 前 , 使 用 instal1.packages ("caret") 命令 来 安装 这 个 添加 包 。 
如 果 要 获取 caret 的 更 多 信息 ， 请 参考 如 下 文章 : Building predictive models in 
\ We R using the caret package, Journal of Statistical Software, Vol. 28, Iss. 5, by Max 
Kuhn (2008)。 


caret 添加 包 给 出 了 另 一 个 创建 混 消 矩阵 的 函数 。 其 语法 和 table() 很 相似 ,但 是 需 
要 指定 阳性 的 输出 ， 有 具体 命令 如 下 所 示 。 因 为 短信 分 类 器 的 目标 是 检测 垃圾 信息 ， 所 以 设置 
positive = "Spam'"。 

> library (caret) 


> confusionMatrix(sms results$predict type,sms results$actual type, 


positive = "spam") 
结果 如 下 所 示 : 
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Confusion Matrix and statistics 
Reference 
Prediction ham spam 
ham 1202 29 
spam 5 154 
Accuracy : 0.9755 
95% CI : (0.966, 0.983) 
No Information Rate ; 0.8683 
p-value [Acc > NIR] : < 2.2e-16 


appa : 0.8867 
Mcnemar "5 Test P-Value : 7.998e-05 


Neg Pred Value : 0.9764 
Prevalence : 0.1317 

Detection Rate : 0.1108 
Detection Prevalence : 0.1144 


"Positive” Class : 5pam 


该 函数 的 输出 结果 包含 了 混 清 和 矩阵 和 其 他 的 一 些 性 能 评价 指标 。 让 我 们 看 一 看 其 中 比较 
常用 的 统计 量 。 


1. Kappa 统计 量 


通过 解释 完全 因为 巧合 而 预测 正确 的 概率 ，Kappa 统计 量 (在 前 面 的 输出 结果 中 标记 为 
Kappa) 对 准确 度 进行 了 调整 。Kappa 值 的 范围 最 大 是 1， 说 明 在 预测 值 和 真实 值 之 间 是 完 
全 一 致 的 ， 这 样 的 情况 非常 少见 。 小 于 1 的 值 表示 不 完全 一 致 。 

根据 模型 的 使 用 目的 ， 对 Kappa 统计 量 的 解释 会 有 所 不 同 。 但 是 一 般 的 解释 如 下 所 示 : 

口 很 差 的 一 致 性 : 小 于 0.2。 

口 尚 可 的 一 致 性 : 0.2 ~ 0.4。 

口 中 等 的 一 致 性 : 0.4 ~ 0.6。 

口 不 错 的 一 致 性 : 0.6 ~ 0.8。 

口 很 好 的 一 致 性 : 0.8 ~ 1。 

但 是 有 个 问题 很 重要 ， 这 些 类 别 是 主观 性 的 。 如 果 预 测 某 人 最 喜欢 的 冰淇淋 口味 ， 那 么 
“不 错 的 一 致 性 ”已 经 足够 ; 如 果 目 标 是 让 航天 飞机 在 月 球 表面 安全 着 陆 ， 那 么 “很 好 的 一 
致 性 ”也 有 可 能 还 不 够 。 


关于 前 面 的 度量 方法 的 更 多 信息 ， 请 参考 : The measurement of observer agreement 
-Ev 
3 ~ for categorical data, Biometrics Vol. 33, pp.159-174, by J.R. Landis and G.G. 
Koch (1977)。 


下 面 是 计算 Kappa 统计 量 的 公式 。 在 这 个 公式 中 ，Pr 指 的 是 分 类 器 和 真实 值 之 间 的 真实 
一 致 性 (a) 和 期 望 一 致 性 (e) 的 比例 : 


_ Pr(a)-Pr(e) 
Ne 1-Pr(e) 
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定义 Kappa 统计 量 有 多 种 方法 。 这 里 描述 的 是 最 常用 的 方法 ， 使 用 Cohen 

4 的 Kappa 系数 ， 如 下 面 论 文中 所 述 : A _ coefficient of agreement for nominal 

~ scales, Education and Psychological Measurement Vol. 20, pp. 37-46, by J. 
Cohen (1960)。 


如 果 知 道 去 哪里 寻找 ， 该 比例 可 以 非常 容易 地 通过 混淆 矩阵 计算 得 到 。 让 我 们 以 短信 分 
类 模型 的 混淆 矩阵 为 例 ， 使 用 crossTable () 函数 ， 将 之 前 的 结果 复制 到 这 里 : 


sms_results$predict_type 
ham | spam 


| 

sms_results$actual_type | | Row Total | 

二 |-----------|------- 一 -= 一 ne a 
ham | 1202 | | 1207 | 

| 16.565 | 128.248 | | 
| .996 | 0. | 0.868 | 
| 0.976 | 0.031 | | 

| 0.865 | 0. | | 

spam | 29 | i154 183 

| 109.256 | 845.876 | 
| 0.158 | 0.842 | 0.132 | 
| 0.024 | 0.969 | | 
| 0.021 | 0.111 | | 
Column Total | 1231 | 159 | 1390 | 
| 0.886 | 0.114 | | 


每 格 最 底部 的 值 表示 落 入 这 个 格子 的 实例 占 所 有 实例 的 比例 。 因 此 ， 要 计算 的 一 致 性 
Pr(a)， 只 需要 简单 地 将 预测 值 与 实际 SMS 类 型 一 致 的 格子 的 比例 加 起 来 即 可 。 如 下 所 示 : 


> Pr a <= 0.865 + 0.111 
> pr a 
[1] 0.976 


在 这 个 分 类 器 中 ， 观 测 值 和 实际 值 有 97.6% 的 情况 是 一 致 的 ， 我 们 可 以 发 现 这 个 值 和 准 
确 度 是 一 样 的 。Kappa 统计 量 使 用 期 望 的 一 致 性 Pr(e) 对 准确 度 进行 调整 。Pr(e) 是 完全 的 偶 
然 性 导致 的 预测 值 和 实际 值 相 同 的 概率 ， 当 然 需要 遵循 两 者 都 是 在 观察 到 的 比例 下 随机 抽样 
这 一 假设 。 

为 了 找到 这 些 观 测 比 例 ， 可 以 应 用 第 4 章 中 学 习 的 概率 规则 。 假 设 两 个 事件 是 独立 的 
(意味 着 一 个 不 会 影响 男 一 个 )， 概 率 规则 指出 两 者 同时 发 生 的 概率 等 于 两 者 各 自发 生 概率 的 
乘积 。 例 如 ， 我 们 知道 同时 选择 ham (有 用 信息 ) 的 概率 是 : 


Pr(actual type is ham) * Pr(predicted_ type ls ham) 
同时 选择 spam (垃圾 信息 ) 的 概率 是 : 
Pr(actual type is spam) * Pr(predicted type is spam) 


预测 值 或 者 实际 类 型 是 ham (有 用 信息 ) 或 者 spam (垃圾 信息 ) 的 概率 可 以 通过 行 或 列 
的 汇总 得 到 ， 例 如 ， 
Pr(actual type is ham) = 0.868 
Pr(e) 可 以 通过 将 “预测 值 与 实际 分 类 一 致 认为 是 有 用 信息 的 概率 ”和 “预测 值 与 实际 分 
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类 一 致 认为 是 垃圾 信息 的 概率 ” 相 加 得 到 。 因 为 这 两 个 事件 是 互 斥 事件 (也 就 是 说 ， 它 们 不 
可 能 同时 发 生 )， 所 以 我 们 可 以 简单 地 将 两 个 概率 相 加 从 而 得 到 任意 一 个 事件 发 生 的 概率 。 具 
体 的 R 代码 如 下 所 示 : 


> pre <- 0.868 * 0.886 + 0.132 * 0.114 
> PE & 
[1] 0.784096 


因为 pr_e=0.784 096， 所 以 完全 偶然 的 情况 下 观测 值 和 实际 值 有 78.4% 的 概率 是 一 致 的 

这 意味 着 现在 我 们 得 到 了 Kappa 公式 所 需要 的 全 部 信息 。 将 pr_a 和 Pr_e 放 和 人 Kappa 
的 计算 公式 中 ， 可 以 发 现 : 

>k <- (pr a- pre)/ (1 - pr e) 


> 上 
[1] 0.8888395 


Kappa 值 约 为 0.89， 这 与 前 面 的 函数 confusionMatrix() 的 输出 是 一 致 的 (细微 的 不 
同 是 因为 伟人 误差 )。 利 用 之 前 推荐 的 解释 ， 我 们 可 以 认为 该 分 类 器 在 预测 值 和 实际 值 中 有 
着 很 好 的 一 致 性 。 

R 中 有 很 多 自动 计算 Kappa 值 的 函数 。 可 视 化 分 类 数据 添加 包 ( Visualizing Categorical 
Data，vcda) 中 的 Kappa () 图 数 (注意 第 一 个 字母 要 大 写 ) 使 用 预测 值 和 实际 值 的 混 请 和 矩 
阵 进行 计算 。 在 使 用 instal1.packages ("vcd") 命令 安装 该 添加 包 后 ， 使 用 以 下 命令 
可 以 得 到 Kappa 值 : 


> library (vcd) 

> Kappal(table(sms_ results$actual type, sms_ results$predict type)) 
value ASE 

Unweighted 0.8867172 0.01918876 

Weighted 0.8867172 0.01587936 


我 们 主要 关注 不 加 权 的 Kappa 值 ， 其 值 0.89 符合 我 们 的 期 望 。 


加 权 Kappa 值 主要 用 于 存在 不 同 尺度 一 致 性 的 情况 。 例如， 使 用 冷 、 温 暖 
» 和 热 的 度量 方式 ， 温 暖和 热 之 间 的 一 致 性 要 强 于 温暖 和 冷 之 间 的 一 致 性 。 对 
忆 于 二 值 分 类 的 情况 (比如 ， 有 用 信息 和 垃圾 信息 )， 加 权 Kappa 值 和 不 加 权 
Kappa 值 是 一 样 的 。 


评定 者 间 可 信和 度 (Inter-Rater Reliability，irr) 添加 包 中 的 kappa2() 函数 可 以 直 
接 使 用 数据 框 中 的 预测 值 向 量 和 实际 分 类 向 量 来 计算 Kappa 值 。 通 过 命令 install. 
packages ("irr") 安装 该 添加 包 之 后 ， 使 用 如 下 命令 得 到 Kappa 值 : 


> library (irr) 
> kappa2 (sms_results [1:2]) 
Cohen's Kappa for 2 Raters (Weights: unweighted) 
Subjects = 1390 
Raters = 2 
Kappa = 0.887 
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= 33.2 
p-value = 0 


这 两 种 方法 都 得 到 了 相同 的 Kappa 值 ， 所 以 可 以 任 选 一 种 觉得 使 用 方便 的 方法 。 


z 


~ 小 、 注意 不 要 使 用 内 置 的 kappa () 函数 ， 它 与 我 们 之 前 介绍 的 Kappa 统计 量 没 


2. 灵敏 度 与 特异 性 


分 类 经 常 要 在 做 决策 时 过 于 保守 和 过 于 激进 之 间 做 平衡 。 例 如 ， 一 个 邮件 过 滤器 可 以 
采用 一 种 很 激进 的 方法 以 错 杀 几乎 所 有 正常 邮件 为 代价 确保 能 过 滤 所 有 的 垃圾 邮件 。 另 一 方 
面 ， 如 果 要 确保 没有 任何 正常 邮件 被 错误 地 过 滤 掉 ， 可 能 要 容许 难以 接受 数目 的 垃圾 邮件 通 
过 过 滤器 。 这 种 权衡 可 以 由 灵敏 度 和 特异 性 这 对 度量 方式 实现 。 

模型 的 灵敏 度 (也 称 为 真 阳性 率 ) 度量 了 阳性 样本 被 正确 分 类 的 比例 。 因 此 ， 如 以 下 公 
式 所 示 ， 可 以 通过 真 阳性 的 数目 除 以 数据 中 阳性 的 总 数 一 一 包括 正确 分 类 的 ( 真 阳性 ) 和 错 
误 分 类 的 〈 假 阴性 )。 

TP 
TP+FN 

模型 的 特异 性 (也 称 为 真 阴性 率 ) 度量 了 阴性 样本 被 正确 分 类 的 比例 。 与 灵敏 度 一 样 ， 

也 是 通过 真 阴性 的 总 数 除 以 阴性 的 总 数 一 一 包括 真 阴性 和 假 阳 性 : 





灵敏 度 = 


TN 
特异 性 N+ 印 


给 定 短信 分 类 器 的 混淆 和 矩阵， 我 们 可 以 很 容易 手工 计算 这 两 个 指标 。 假 设 垃圾 信息 表示 
阳性 类 别 ， 我 们 可 以 确认 confusionMatrix() 的 输出 中 的 数目 是 正确 的 。 例 如 ， 灵 敏 度 
可 以 使 用 如 下 方式 计算 : 


> sens <- 154 / (154 + 29) 
> sens 
[1] 0.8415301 


类 似 地 ,计算 特异 性 : 


> spec <- 1202 / (1202 + 5) 
> spec 
[1] 0.9958575 


caret 添加 包 提供 了 可 以 直接 计算 灵敏 度 和 特异 性 的 函数 ， 输 入 预测 值 向 量 和 实际 分 类 
向 量 即 可 。 注 意 指定 合适 的 positive 和 negative 参数 ,代码 如 下 所 示 : 


> library (caret) 
> sensitivity(sms results$predict type, sms_ results$actual type, 
positive = "spam") 
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[1] 0.8415301 

> specificity(sms results$predict type, sms results$actual type, 
negative = "ham") 

已 0:9958575 


灵敏 度 和 特异 性 的 取 值 范围 都 是 0 ~ 1， 接 近 1 的 值 更 令 人 人 满意。 当然， 在 两 者 之 间 找 
到 一 个 合适 的 平衡 点 是 很 重要 的 一 一 这 通常 是 由 具体 情况 决定 的 。 

例如 ， 在 这 个 例子 中 ， 灵敏 度 是 0.842 意味 着 84% 的 垃圾 信息 被 正确 分 类 。 类 似 地 ， 特 
异 度 0.996 意味 着 99.6% 的 正常 信息 被 正确 分 类 了 ， 或 者 说 ，0.4% 的 正常 信息 被 当 作 垃圾 信 
息 排 除了 。 拒 绝 0.4% 的 正常 信息 可 能 让 人 难以 接受 ， 但 这 是 在 能 有 效 减少 垃圾 信息 的 基础 
上 的 合理 权衡 

使 用 灵敏 度 和 特异 性 提供 工具 用 来 考虑 这 种 权衡 。 典 型 的 做 法 是 ， 对 模型 进行 调整 或 者 
使 用 不 同 的 模型 ， 直 到 能 通过 灵敏 度 和 特异 性 的 国 值 为 止 。 后 面 将 要 讨论 的 可 视 化 方法 也 可 
以 帮助 理解 灵敏 度 和 特异 性 之 间 的 权衡 。 


3. 精确 度 和 回溯 精确 度 

与 灵敏 度 和 特异 性 紧密 相关 的 是 男 两 个 性 能 度量 指标 ， 同 样 与 分 类 时 的 折 中 方案 有 关 ， 
它们 是 预测 精确 度 和 回溯 精确 度 。 这 两 个 统计 量 最 开始 用 于 信息 检索 领域 ， 目 的 是 提供 对 于 
模型 结果 的 有 趣 和 有 关 程 度 的 描述 ， 或 者 说 预测 是 否 会 因为 无 意义 的 噪声 而 减弱 。 

精确 度 (也 称 为 阳性 预测 值 ) 定义 为 真 阳 性 在 所 有 预测 为 阳性 案例 中 的 比例 ， 换 句 话说 ， 
当 一 个 模型 预测 阳性 类 别 时 ， 总 是 正确 吗 ?” 一 个 精确 的 模型 只 有 在 类 别 非 常 像 阳性 时 才 会 预 
测 为 阳性 。 这 是 非常 可 靠 的 。 

我 们 可 以 考虑 当 模型 不 精确 时 会 发 生 什 么 。 经 过 一 段 时 间 ， 结 果 将 变 得 不 可 信 。 在 信息 
检索 领域 ， 这 与 搜索 引 警 类似， 就 好 比 Google 会 返回 不 相关 的 结果 。 最 终 用 户 将 会 转向 其 
竞争 对 手 (比如 ，Bing)。 在 垃圾 信息 过 滤器 的 例子 中 ， 高 预测 精确 度 意 味 着 模型 可 以 很 仔细 
地 定位 到 垃圾 信息 同时 会 忽略 有 用 信息 。 

TP 
TP+FP 

男 一 方面 ， 回 溯 精 确 度 是 关于 结果 完备 性 的 度量 。 在 后 面 的 公式 中 可 以 看 到 ， 它 定义 为 
真 阳 性 与 阳性 总 数 的 比例 。 你 会 发 现 这 与 灵敏 度 是 一 样 的 ， 只 是 解释 上 不 一 样 。 回 湖 精 确 度 
高 的 模型 可 以 捕捉 大 量 的 阳性 样本 ， 这 意味 着 其 具有 很 宽 的 范围 。 例 如 ， 高 回溯 精确 度 的 搜 
索引 擎 可 能 返回 大 量 与 搜索 词 相关 的 文档 。 类 似 地 ， 如 果 大 多 数 的 垃圾 信息 被 正确 地 识别 ， 
那么 意味 着 垃圾 短信 过 滤器 具有 较 高 的 回溯 精确 度 。 

TP 
TP+FN 


我 们 可 以 通过 混 靖 和 矩阵 来 计算 精确 度 和 回溯 精确 度 。 同 样 ， 我 们 假设 垃圾 信息 是 阳性 类 


精确 度 = 








回溯 精确 度 = 
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别 ， 那 么 精确 度 就 是 : 


> prec <- 154 / (154 + 5) 
> prec 
[1] 0.9685535 


回溯 精确 度 也 可 以 计算 得 到 : 


> rec <- 154 / (154 + 29) 
> YeC 
[1] 0.8415301 


caret 添加 包 可 以 用 来 计算 这 两 个 值 ， 只 要 输入 预测 类 别 和 真实 类 别 的 向 量 。 使 用 
posPredValue () 函数 计算 精确 度 : 


> library (caret) 

> posPredValue (sms results$predict type, sms results$actual type, 
positive = "spam") 

[1] 0.9685535 


使 用 我 们 之 前 用 过 的 sensitivity () 函数 可 以 计算 回溯 精确 度 。 

与 灵敏 度 和 特异 性 之 间 固 有 的 权衡 相似 ， 对 于 大 多 数 的 真实 问题 ， 很 难 建立 一 个 同时 
具有 很 高 的 精确 度 和 回溯 精确 度 的 模型 。 实 现 高 精确 度 是 非常 容易 的 ， 如 果 目 标 仅仅 是 容易 
摘 到 的 果实 一 一 那些 易于 分 类 的 样本 。 类 似 地 ， 通 过 广泛 的 撒 网 也 能 很 容易 实现 高 回溯 精确 
度 ， 这 意味 着 模型 在 预测 阳性 时 过 于 激进 。 相 比 之 下 ， 同 时 具有 高 精确 度 和 高 回溯 精确 度 非 
常 具 有 挑战 性 。 因 此 测试 各 种 模型 是 非常 重要 的 ， 这 可 以 帮助 我 们 找到 符合 当前 项 目 需求 的 
精确 度 和 回溯 精确 度 的 组 合 。 


4. 下 度量 


将 精确 度 和 回溯 精确 度 合并 成 一 个 单一 值 的 模型 性 能 度量 方式 是 F 度量 (有 时 也 称 为 Fl 
记分 或 者 F 记分 )。F 度量 使 用 调和 平均 值 来 整合 精确 度 与 回溯 精确 度 。 因 为 预测 精确 度 和 回 
漳 精 确 度 都 是 0 ~ 1 之 间 的 比例 ， 所 以 使 用 调和 平均 值 而 不 是 更 常用 的 算术 平均 值 。 以 下 是 
F 度量 的 公式 : 
2x 精 度 x 回 洲 精 确 度 2xTP 

回溯 精确 度 + 精 度 2xTP+FP+FN 
使 用 之 前 计算 的 精确 度 和 回溯 精 确 度 来 计算 下 度量 : 


> 上 <- (2 * prec * rec) / (prec + rec) 
>; 下 
[1] 0.9005848 


这 与 使 用 混淆 矩阵 中 的 计数 得 到 数值 是 一 样 的 : 


> f2 <- (2 * 154) / (2 * 154 + 5 + 29) 
2 下 2 
[1] 0.9005848 


因为 F 度量 将 模型 的 性 能 指标 变 成 了 一 个 单一 的 值 ， 所 以 它 提 供 了 一 种 便利 的 方式 来 比较 多 
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个 模型 的 好 坏 。 不 过 ， 这 需要 假设 精确 度 和 回溯 精确 度 具 有 同样 的 权重 ， 然 而 这 个 假设 并 不 
总 是 正确 的 。 对 精确 度 和 回溯 精确 度 使 用 不 同 的 权重 来 计算 F 值 是 可 行 的 。 但 是 ， 在 最 好 的 
情况 下 ， 选 择 权 数 是 件 棘 手 的 事情 ， 但 在 最 坏 的 情况 下 又 太 过 于 随意 。 更 好 的 实践 方式 是 将 
诸如 下 度量 之 类 的 度量 方式 与 其 他 更 全 局 化 考虑 模型 的 优势 和 不 足 的 方法 联合 起 来 ， 例 如 下 
一 节 介 绍 的 方法 。 


10.1.5 “性 能 权衡 的 可 视 化 

可 视 化 方法 经 常 能 帮助 理解 机 器 学 习 算 法 的 性 能 在 不 同 的 情况 下 是 如 何不 同 。 与 成 对 的 
统计 量 (比如 ， 灵 敏 度 和 特异 性 、 精 确 度 与 回溯 精确 度 ) 不 同 ， 可 视 化 可 以 考察 度量 如 何在 
大 范围 的 值 之 间 变 化 。 它 们 还 提供 了 可 以 在 单个 图 形 中 同时 比较 多 个 分 类 器 的 方法 。 

ROCR 包 提 供 了 一 套 易于 使 用 的 函数 用 于 可 视 化 分 类 模型 性 能 的 统计 量 。 它 包含 了 很 多 
函数 用 来 计算 大 部 分 常用 的 性 能 度量 指标 并 进行 可 视 化 。ROCR 网 站 ( http://rocr.bioinf.mpi- 
sb.mpg.de/) 列 出 了 该 添加 包 的 所 有 功能 ， 并 提供 了 几 个 展现 其 可 视 化 能 力 的 例子 。 在 继续 之 
前 ,我们 首先 使 用 命令 ijnstall .packages ("ROCR") 安装 这 个 添加 包 . 


关于 ROCR 开发 的 更 详细 信息 ， 和 参见 ROCR: visualizing classifier performance 
要 ~ in R, Bioinformatics Vol.21, pp. 3940-3941, by T. Sing, O. Sander, N. 
Beerenwinkel, and T. Lengauer (2005)。 


使 用 ROCR 创建 可 视 化 图 形 ， 需 要 两 个 数据 向 量 。 第 一 个 必须 包含 预测 的 类 别 值 ， 第 二 
个 必须 包含 阳性 类 别 的 估计 概率 。 这 些 用 来 创建 一 个 预测 对 象 ， 它 可 以 被 ROCR 的 绘图 函数 
检测 到 。 

短信 分 类 器 的 预测 对 象 可 以 使 用 分 类 器 的 估计 垃圾 信息 概率 (prob_spam) 和 实际 类 别 
标签 (actual_type) 来 生成 。 可 以 使 用 prediction() 函数 来 实现 : 


> library (ROCR) 
> pred <- prediction(predictions = sms_ results$prob_ spam, 
labels = sms_ results$actual type) 


ROCR 提供 了 performance() 函数 来 计算 所 预测 对 象 的 性 能 度量 值 ， 例 如 前 面 的 代码 
示例 中 使 用 过 的 pred。 结 果 性 能 对 象 可 以 通过 使 用 R 中 的 plot () 函数 进行 可 视 化 。 通 过 
这 3 个 函数 ， 可 以 创建 各 种 描述 。 


ROC 曲线 


ROC ( Receiver Operating Characteristic， 受 试 者 工作 特征 ) 曲线 常常 用 来 检查 在 找 出 真 
阳性 和 避免 假 阳 性 之 间 的 权衡 。 通 过 其 名 称 可 以 猜想 到 ，ROC 曲线 是 第 二 次 世界 大 战 期 间 通 
信和 领域 的 工程 师 开 发 的 。 雷 达 和 无 线 信号 接收 器 需要 一 种 方法 用 来 区 分 真 信号 和 假 警报 。 同 
样 的 技术 在 今天 被 用 来 可 视 化 机 器 学 习 模型 的 功效 。 

典型 ROC 图 形 的 特点 在 下 图 中 得 到 了 显示 。 统 计 图 形 中 的 曲线 ， 纵 轴 表 示 真 阳性 的 比 
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例 ， 横 轴 表 示 假 阳性 的 比例 。 因 为 这 两 个 值 分 别 等 于 灵敏 度 和 1- 特异 性 ， 所 以 该 图 形 也 称 
为 灵敏 度 /特异 性 图 : 


100% 


80% 


真 阳 性 比例 
(灵敏 度 ) ow 


40% 


20% 





0% 20% 40% 60% 80% 100% 
假 阳 性 比例 (1- 特 异性 ) 

ROC 曲线 上 的 点 表示 不 同 假 阳性 冰 值 上 的 真 阳 性 的 比例 。 绘 制 曲 线 时 ， 分 类 器 的 预测 值 
通过 模型 对 阳性 类 别 的 估计 概率 排序 ， 最 大 值 在 最 前 面 。 从 原点 开始 ， 每 个 预测 值 对 应 的 真 
阳性 和 假 阳性 将 导致 曲线 沿 垂直 方向 (正确 的 预测 ) 移动 或 者 沿 水 平方 向 (错误 的 预测 ) 移动 。 

为 了 说 明 这 个 概念 ， 我 们 在 上 图 中 比较 了 3 个 假设 的 分 类 器 。 第 一 个 是 图 中 从 左下 角 到 
右上 角 的 直线 ， 代 表 没 有 预测 价值 的 分 类 器 。 这 种 分 类 器 发 现 真 阳性 和 假 阳性 的 比率 完全 相 
同 ， 这 意味 着 该 分 类 器 无 法 识别 两 者 之 间 的 差别 。 这 是 评价 其 他 分 类 器 的 基准 线 。ROC 曲线 
如 果 比 较 靠 近 这 条 线 ， 则 说 明 模 型 不 是 很 有 用 。 类 似 地 ， 完 美 分 类 器 拥有 一 条 穿 过 了 100% 
真 阳性 和 0% 假 阳 性 点 的 曲线 。 它 在 不 正确 地 分 出 任何 阴性 的 结果 之 前 已 经 正确 地 识别 了 所 
有 的 真 阳性 样本 。 大 部 分 真实 的 分 类 器 比较 类 似 于 测试 分 类 器 ， 它 位 于 完美 分 类 器 和 没有 预 
测 价值 的 (无 用 ) 分 类 器 之 间 的 区 域 

离 完美 分 类 器 越 接 近 说 明 能 够 越 好 地 识别 阳性 值 。 可 以 使 用 ROC 曲线 下 面积 ( Area 
Under the ROC，AUC) 这 个 统计 量 来 度量 。 与 字面 意思 一 样 ，AUC 将 ROC 图 看 成 是 2 维 正 
方形 ， 然 后 测量 ROC 曲线 下 的 面积 。AUC 的 值 从 0.5 (无 预测 值 的 分 类 器 ) 到 1.0 (完美 分 
类 右 )。 通 常 使 用 类 似 于 学 校 字母 评分 的 体系 来 解释 AUC 的 得 分 : 

口 0.9 ~ 1.0=A (优秀 )。 

口 0.8 ~ 0.9=B (良好 )。 

口 0.7 ~ 0.8 =C (一 般 )。 

口 0.6 ~ 0.7=D (很 差 )。 

口 0.5 ~ 0.6 =F (无 法 区 分 )。 

与 类 似 的 很 多 评分 尺度 一 样 ， 其 水 平 可 能 在 某 些 任务 上 的 表现 要 强 于 其 他 的 任务 。 这 个 
分 类 方法 比较 主观 。 
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\ 同样 值得 注意 的 是 ， 两 个 ROC 曲线 可 能 形状 不 同 但 是 具有 相同 的 AUC。 由 
QQ 于 这 个 原因 ，AUC 可 能 具有 误导 性 。 最 好 的 方式 是 在 使 用 AUC 的 同时 也 对 
ROC 曲线 进行 定性 分 析 。 


使 用 ROCR 添加 包 绘 制 ROC 曲线 需要 为 pred 预测 对 象 构建 一 个 性 能 对 象 ， 我 们 之 前 计 
算 过 它 。 因 为 ROC 曲线 是 真 阳性 和 假 阳性 的 线 图 ， 所 以 可 以 简单 地 调用 performance () 
函数 来 绘图 ， 只 需 指 定 tpr 和 fpr 度量 ， 代 码 如 下 所 示 : 

> perf <- performance (pred, measure = "tpr", x.measure = "fpr") 

使 用 perf 性 能 对 象 ， 可 以 使 用 R 中 的 plot () 函数 绘制 ROC 曲线 。 如 下 列 代 码 所 
示 ， 很 多 标准 参数 可 以 用 来 对 图 形 进行 调节 ， 例 如 main (添加 标题 )、col (改变 线 的 颜色 ) 
和 1wd (调节 线 宽 ): 


> plot (perf, main = "ROC curve for SMS spam filter'", 
col = "blue", lwd = 3) 


虽然 代码 中 的 plot () 命令 已 经 足够 绘制 ROC 图 形 ， 但 是 加 入 一 条 参考 线 用 来 表示 无 
预测 值 的 分 类 器 也 是 很 有 必要 的 。 

可 以 使 用 abline() 函数 来 绘制 这 条 线 。 该 函数 可 以 通过 斜率 截 距 的 方式 来 设 定 一 条 
直线 ，a 表示 截 距 ，b 表示 和 斜率 。 因 为 我 们 需要 一 条 通过 远 点 的 45 度 的 线 ， 所 以 我 们 可 以 设 
置 截 距 a=0， 和 斜率 b=1， 如 下 图 所 示 。1wd 参数 调节 线 的 粗细 ，1Lty 参数 调节 线 型 。 例 如 ， 
lty=2 表示 虚线 。 


> abline(la = 0 b a 1 lwd = 2，1Lty = 2) 


最 终 的 结果 是 包含 虚线 参考 线 的 ROC 图 : 


SMS 垃 圾 邮件 过 滤器 的 ROC 了 曲线 


真 阳 性 比例 





假 阳 性 比例 
定性 地 分 析 ， 我 们 可 以 看 到 这 条 ROC 曲线 占据 了 图 形 左上 角 的 区 域 ， 这 意味 着 与 虚线 
代表 的 无 用 分 类 器 相 比 ， 它 更 接近 于 完美 分 类 器 。 如 果 要 定量 地 确认 这 个 事实 ， 我 们 可 以 
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使 用 ROCR 添加 包 来 计算 AUC。 首 先 ， 我 们 需要 创建 另 一 个 性 能 类 型 对 象 ， 这 次 我 们 设 定 
measure = "auc"， 代 码 如 下 所 示 : 

> perf.auc <- performance (pred, measure = "auc") 

因为 perf .auc 是 一 个 对 象 (明确 地 说 是 一 个 S4 对 象 )， 所 以 需要 使 用 一 个 特殊 的 符号 
来 访问 存储 在 其 中 的 值 。S4 对 象 存储 信息 的 位 置 称 为 柳 。str () 函数 可 以 用 来 查看 一 个 对 
象 的 所 有 本 : 


> Str (Petzf.auc) 
Formal class 'performance' [package "ROCR"] with 6 slots 


..@ x.name : Chr “None" 

..@ y.name : Chr "Area under the ROC Curven 
..@ alpha.name : chr "none" 

..@ x.values 5 list() 

..@ y.values :DiSt of 1 


“i Tum 0.983 
..@ alpha.values: list() 


注意 ， 横 的 前 级 是 符号 @。 要 想 访 问 AUC 的 值 ， 其 作为 列表 对 象 存储 在 y.values 村 
内 ， 可 以 使 用 符号 @ 和 unlist () 函数 ， 将 列表 简化 成 数值 向 量 : 


> unlist (perf.auc@y .values) 
[1] 0.9829999 


短信 分 类 咒 的 AUC 是 0.98， 非 常 高 。 但 是 我 们 如 何 才能 知道 这 个 模型 对 于 其 他 的 数据 
集 是 否 也 表现 得 足够 好 ? 为 了 回答 这 个 问题 ， 我 们 需要 更 好 地 理解 在 测试 数据 之 外 我 们 能 够 
推断 模型 的 预测 性 能 。 


10.2 ”评估 未 来 的 性 能 


有 些 R 机 器 学 习 添加 包 在 模型 构建 过 程 中 显示 混淆 矩阵 和 性 能 度量 指标 。 这 些 统计 量 的 
目的 是 提供 对 模型 再 带 入 误差 的 认识 ， 虽 然 模型 直接 从 数据 中 构建 ， 但 是 当 训练 数据 进行 了 
错误 的 预测 时 就 会 产生 再 带 入 误差 。 该 信息 用 于 一 个 粗略 的 诊断 工具 ， 尤 其 是 用 于 识别 明显 
不 好 的 分 类 器 。 

但 是 对 于 未 来 的 性 能 ， 再 带 和 人 误差 并 不 是 很 好 的 标识 器 。 例 如 ， 如 果 一 个 模型 通过 死记 
人 硬 背 的 方式 对 每 个 训练 的 个 体 都 进行 了 完美 分 类 (再 带 入 误差 为 0)， 那 么 对 于 它 从 来 没有 见 
过 的 数据 将 无 法 进行 预测 。 为 此 ， 训 练 数据 的 误差 率 对 于 模型 的 未 来 性 能 可 能 会 过 于 乐观 。 

与 信赖 再 带 入 误差 相 比 ， 更 好 的 方式 是 评估 模型 对 其 从 未 见 过 数据 的 性 能 。 在 前 面 的 章 
节 中 我 们 使 用 过 这 种 方法 ， 当 时 我 们 将 数据 分 成 了 训练 集 和 测试 集 。 但 是 在 某 些 情况 下 ， 创 
建 训练 集 和 测试 集 的 方式 并 不 总 是 有 用 。 例 如 ， 当 数据 集 很 小 时 ， 通 过 划分 训练 集 和 测试 集 
来 减 小 样本 量 是 不 合适 的 。 

幸运 的 是 ， 存 在 一 些 其 他 的 方式 来 评估 模型 对 其 未 见 过 数据 的 性 能 。 之 前 我 们 用 来 计算 
性 能 度量 值 的 caret 添加 包 也 提供 了 一 些 函数 来 实现 这 个 目的 。 如 果 想 运行 R 代码 的 示例 
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但 还 没有 安装 该 包 ， 请 先 安装 该 添加 包 。 还 需要 使 用 1ibrary (caret) 命令 在 R 中 加 载 这 
个 添加 包 。 


10.2.1 ”保持 法 

在 前 面 章 节 中 ， 我 们 将 数据 划分 成 训练 集 和 测试 集 的 过 程 称 为 保持 法 。 如 下 图 所 示 ， 训 
练 数据 集 用 来 生成 模型 ， 然 后 应 用 到 测试 数据 集 从 而 生成 预测 结果 进行 评估 。 比 较 典 型 的 做 
法 是 ， 大 约 1/3 的 数据 用 来 测试 ，2/3 的 数据 用 来 训练 模型 ， 但 是 这 个 比例 是 可 以 根据 数据 量 
不 断 变 化 的 。 为 了 确保 训练 数据 和 测试 数据 没有 系统 性 偏差 ， 样 本 被 随机 地 分 成 两 组 . 











由 测试 数据 库 


因为 保持 法 对 未 来 的 性 能 进行 真实 的 精确 估计 ， 所 以 绝 不 允许 测试 数据 集 的 结果 影响 模 
型 。 如 果 基 于 重复 测试 的 结果 选择 一 个 最 好 的 模型 ， 那 么 很 容易 在 不 知 不 觉 中 就 违反 了 这 个 
原则 。 一 种 替代 方法 是 继续 对 数据 进行 划分 ， 在 训练 数据 集 和 测试 数据 集 之 外 ， 分 出 第 三 个 
数据 集 ， 也 就 是 验证 数据 集 。 验 证 数据 集 用 来 对 模型 进行 迭代 和 改善 ， 测 试 数据 集 只 使 用 一 
次 ， 在 最 后 的 步骤 中 输出 对 未 来 预测 的 错误 率 的 估计 。 一 种 典型 的 划分 方式 是 50% 的 训练 数 
据 集 、25% 的 测试 数据 集 和 25% 的 验证 数据 集 。 


细心 的 读者 可 能 会 注意 到 这 种 保持 测试 数据 的 方法 在 前 面 的 章节 中 用 来 比较 
不 同 的 模型 。 这 样 做 实际 上 违反 了 之 前 介绍 的 原则 ， 因 此 那些 测试 数据 如 果 
更 精确 地 说 应 该 称 为 验证 数据 。 如 果 我 们 使 用 测试 数据 来 做 决策 ， 我 们 使 用 
摘 樱桃 的 法 则 从 结果 中 挑选 最 好 的 模型 ， 那 么 评估 将 不 再 是 对 未 来 性 能 的 无 
偏 估 计 。 


创建 保持 样本 的 一 种 简单 方式 是 使 用 随机 数 发 生 器 将 记录 划分 到 各 个 数据 集 。 这 种 技术 
最 早 在 第 5 章 用 来 创建 训练 数据 集 和 测试 数据 集 。 
Yd 如 果 你 想 执 行 后 面 的 例子 ， 那 么 你 需要 到 Packt 出 版 社 网 站 上 下 载 credit. 
人 csv 个 数据 集 ， 然 后 使 用 命令 credit <- read.csv("credit.csv") 来 
加 载 数 据 集 。 


AL 


~ 


假设 我 们 有 一 个 名 为 credit 的 1000 行 的 数据 集 ， 我们 可 以 将 其 分 为 3 部 分 : 
> random ids <- order (runif (1000)) 


> credit train <- credit[random ids[1:500],] 
> credit validate <- credit [random ids[501:750], ] 
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> credit test <- credit [random ids[751:1000], ] 

第 一 行 代码 将 从 1 ~ 1000 的 行 ID 随机 排序 ， 然 后 用 这 些 ID 将 credit 数据 框 分 成 500、 
250 和 250 条 记录 的 3 个 子 集 ， 分 别 对 应 训练 集 、 验 证 集 和 测试 集 。 

这 种 保持 抽样 的 方式 存在 一 个 问题 ， 每 个 划分 包含 不 同类 别 的 数量 可 能 过 大 或 者 过 小 。 
在 某 些 特定 的 情况 下 ， 尤 其 是 某 些 类 别 本 来 比例 就 很 小 时 ， 这 可 能 导致 训练 集中 不 包含 该 类 
数据 的 问题 一 一 这 是 个 非常 重要 的 问题 ， 因 为 模型 将 无 法 学 习 该 类 别 。 

为 了 降低 这 种 情况 发 生 的 可 能 性 ， 我 们 可 以 使 用 分 层 随 机 抽样 的 方法 。 虽 然 在 平均 的 情 
况 下 ， 简 单 随机 抽样 包含 的 各 类 别 的 比例 大 概 与 总 体 数 据 集中 的 比例 相同 ， 但 是 分 层 随 机 抽 
样 可 以 确保 随机 划分 后 每 个 类 别 的 比例 与 总 体 数据 中 的 比例 近似 相等 。 

caret 添加 包 提 供 了 createDataPartition() 困 数 ， 它 可 以 基于 分 层 抽 样 方法 来 
创建 随机 的 划分 。 对 credit 数据 集 创 建 训 练 集 和 测试 集 的 分 层 样本 的 代码 如 下 所 示 。 使 用 
该 函数 时 ， 需 要 指定 类 别 向 量 (这 里 ，default 变量 表示 是 否 贷款 违约 )， 此 外 ， 参 数 p 表 
示 包 含 在 该 划分 中 样本 的 比例 。 参 数 1ist = FALSE 防止 结果 存储 成 列表 的 形式 。 

> in train <- createDataPartitionl(credit$default, p = 0.75, 

list = FALSE) 


> credit train <- credit[in train, ] 
> Gredit 七 EB <- credit(-in train, ) 


向 量 in_train 表示 包含 在 训练 样本 中 的 行 号 。 我 们 可 以 使 用 这 些 行 号 为 数据 框 credit 
_train 选择 样本 。 类 似 地 ， 通 过 使 用 负 号 ， 我 们 通过 不 包含 在 in_train 向 量 中 的 行 号 来 
得 到 credit_test 数据 集 。 


因为 模型 如 果 在 更 大 的 数据 集中 进行 训练 可 以 得 到 更 好 的 性 能 ， 所 以 常见 的 
做 法 是 在 选择 和 评估 了 最 终 的 模型 之 后 ， 将 模型 在 整个 数据 集 (训练 集 加 上 
验证 集 加 上 测试 集 ) 上 重新 训练 ， 使 得 模型 能 够 最 大 化 地 利用 所 有 的 数据 。 


虽然 这 种 方式 可 以 确保 分 布 的 均匀 性 ， 但 是 分 层 抽 样 并 不 能 保证 其 他 类 型 的 代表 性 。 有 
些 样本 包含 过 多 或 者 过 少 的 困难 样本 、 易 预测 样本 或 者 极端 值 。 尤 其 是 当 数据 量 少时 特别 明 
显 ， 每 个 部 分 的 数据 集 不 足以 包含 所 有 的 情况 。 

除了 可 能 的 有 偏 样本 以 外 ， 保 持 法 的 另 一 个 问题 是 大 量 的 数据 部 分 都 被 用 来 测试 和 验证 
模型 。 在 模型 的 性 能 被 度量 之 前 都 无 法 用 来 训练 模型 。 这 种 性 能 估计 的 方式 过 于 保守 。 

一 种 称 为 重复 保持 的 技术 有 时 用 来 缓解 随机 构建 训练 集 的 问题 。 重 复 保 持 法 是 保持 法 的 
一 种 特殊 形式 ， 它 对 多 个 随机 保持 样本 的 模型 分 别 评估 ， 然 后 用 结果 的 均值 来 评价 整个 模型 
的 性 能 。 使 用 多 重 保持 样本 时 ， 模 型 在 无 代表 性 数据 上 训练 和 测试 的 可 能 性 就 比较 小 了 。 我 
们 将 在 下 一 节 中 对 这 个 思路 进行 扩展 。 





AM 


by 


10.2.2 ”交叉 验证 


重复 保持 法 是 k 折 交叉 验证 (或 者 k 折 CV) 的 基础 。k 折 交 叉 验 证 已 经 成 为 业界 评估 模 
型 性 能 的 标准 。 与 可 能 对 同一 条 记录 使 用 多 次 重复 随机 抽样 的 方法 不 同 , k 折 CV 将 数据 随 
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机 地 分 成 个 完全 分 隔 开 的 部 分 ， 这 些 部 分 称 为 折 。 

虽然 上 可 以 设置 为 任意 的 数值 ， 但 是 到 目前 为 止 ， 最 常用 的 惯例 是 使 用 10 折 交 又 验 证 
(10 折 CV)。 为 什么 是 10 折 ? 经 验证 据 告诉 我 们 ， 使 用 更 大 的 数 后 带 来 的 好 处 并 不 明显 。 对 
于 这 10 折 中 的 每 一 折 (每 折 包 含 总 数据 中 的 10% )， 机 器 学 习 模 型 使 用 剩 下 90% 的 数据 建 
模 。 包 含 10% 数据 的 这 一 折 用 来 评估 。 训 练 和 评估 模型 的 过 程 重复 10 次 ( 10 次 不 同 的 训练 
和 测试 ) 之 后 ， 将 输出 所 有 折 的 平均 性 能 指标 。 
k 折 CYV 的 一 个 极端 情况 是 留 一 交叉 验证 法 ， 它 将 每 个 样本 作为 1 折 ， 确 保 
可 以 最 大 数目 的 样本 来 建 模 。 虽 然 看 上 去 很 有 用 ， 但 是 计算 的 代价 过 大 ， 因 
此 在 实践 中 很 少 使 用 。 


我 们 可 以 使 用 caret 添加 包 中 的 createFolds () 函数 来 创建 交叉 验证 的 数据 集 。 与 
分 层 随 机 保持 抽样 类 似 ， 该 函数 也 尝试 在 每 一 折 中 维持 与 原始 数据 类 似 的 各 类 别 的 比例 。 下 
面 的 命令 可 以 创建 10 折 : 

> folds <- createFolds (credits$default, k = 10) 

createFolds() 的 结果 是 一 个 列表 , 包含 了 10 个 向 量 ， 每 个 向 量 都 是 这 一 折 所 抽取 
数据 的 行 号 。 我 们 使 用 str () 函数 来 查看 其 中 的 内 容 : 


> str{folds) 

List of 10 

Fold01: int [1:100] 1 5 12 13 19 21 25 32 36 38 ... 
Fold02: int [1:100] 16 49 78 81 84 93 105 108 128 134 ... 
Fold03: int [1:100] 15 48 60 67 76 91 102 109 117 123 ... 
Fold04: int [1:100] 24 28 59 64 75 85 95 97 99 104 ... 
Fold05: int [1:100] 9 10 23 27 29 34 37 39 53 61 ... 
Fold06: int [1:100] 4 8 41 55 S58 103 118 121 144 146 .。.， 
Fold07: int [1:100] 2 3 7 11 14 33 40 45 51 57 ... 
Fold08: int [1:100] 17 30 35 52 70 107 113 429 133 ‘L137 。.， 
Fold09: int [1:100] 6 20 26 31 42 44 46 63 79 101 ... 
Fold1i0: int [1:100] 18 22 43 50 68 77 80 88 106 111 ... 


我 们 可 以 看 到 第 一 折 的 名 称 是 Folda01， 包 含 了 100 个 整数 用 于 表示 第 一 折 的 数据 在 
credit 数据 框 中 的 行 号 。 要 创建 训练 集 和 测试 集 来 建 模 和 评估 ， 需 要 一 个 额外 的 步骤 。 下 
面 的 代码 显示 了 通过 第 一 折 创 建 数据 的 过 程 。 与 我 们 在 分 层 抽 样 时 所 做 的 一 样 ， 我 们 用 选 出 
来 的 样本 当 作 训练 集 ， 用 负 号 把 剩余 的 样本 放 到 测试 集 : 


> credit01 train <- credit [folds$Fold01, ] 
> Credit01 test <- credit[-folds$Fold01, ] 


要 想 执 行 完 整 的 10 折 CV， 这 个 步骤 需要 重复 总 共 10 次 ,每 一 次 都 要 建立 模型 ， 人 然后 
计算 模型 的 性 能 。 最 后 ， 通 过 对 所 有 的 性 能 度量 取 平 均值 得 到 总 体 的 性 能 。 幸 运 的 是 ,我 们 
可 以 使 用 之 前 学 过 的 一 些 技术 来 自动 完成 这 个 过 程 。 

为 了 演示 这 个 过 程 ， 我 们 用 10 折 CV 方法 对 credit 数据 集 建 立 C5.0 决策 树 模型 ， 然 
后 估计 Kappa 统计 量 。 首 先 ， 我 们 需要 加 载 caret 添加 包 (创建 折 )、c50 添加 包 (决策 树 
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模型 ) 和 irr 添加 包 (计算 Kappa 值 )。 选 择 后 面 的 两 个 添加 包 主 要 是 为 了 演示 这 个 例子 。 
如 果 愿 意 ， 也 可 以 使 用 不 同 的 模型 或 者 计算 不 同 的 统计 量 来 完整 这 个 过 程 。 
> library (caret) 


> library (C50) 
> library (irr) 


其 次 ， 我 们 像 先前 做 的 那样 创建 10 折 的 列表 ,使 用 set .seed() 函数 是 为 了 保证 读 
者 自己 运行 后 面 的 代码 的 结果 和 本 书 中 的 一 致 : 


> set.seed(123) 
> folds <- createFolds (credits$default, k = 10) 


最 后 ， 使 用 lapply () 对 列表 的 每 个 元 素 进行 相同 的 操作 。 如 以 下 示例 代码 所 示 ， 因 
为 没有 现成 的 函数 可 以 完成 我 们 的 需求 ， 所 以 我 们 需要 定义 自己 的 函数 来 传 给 lappy () 。 我 
们 定制 的 函数 可 以 将 credit 数据 框 分 成 训练 集 和 测试 集 ， 使 用 cs .0 () 函数 对 训练 集 的 数 
据 建立 决策 树 模型 ， 然 后 对 测试 数据 进行 预测 ， 并 使 用 kappa2 () 图 数 来 比较 预测 值 和 真 

> cv_results <- lapply(folds, function(x) { 

credit train <- credit[x, ] 
credit test <- credit[-x, ] 
credit model <- C5.0(default ~ ., data = credit train) 
credit pred <- predict (credit model, credit test) 
credit actual <- credit test$default 
kappa <- kappa2 (data.frame (credit actual, credit pred))s$value 
return (kappa) 
}) 

结果 的 Kappa 统计 量 保存 在 cv_results 对 象 的 列表 中 ， 我 们 可 以 使 用 str () 函数 进 
行 查看 : 

> Stz(cv_results) 

List of 10 


$ Fold01: num 0.283 
$ Fold02: num 0.108 
$ Fold03: num 0.326 
$ Fold04: num 0.162 
$ Fold05: num 0.243 
$ Fold06: num 0.257 
$ Fold07: num 0.0355 
$ Fold08: num 0.0761 
$ Fold09: num 0.241 
$ Fold1i0: num 0.253 


这 样 ， 我们 把 10 折 ID 列表 转 成 了 kappa 统计 量 的 列表 。 只 剩 下 最 后 一 个 步骤 : 计算 这 
10 个 数 的 平均 值 。 你 可 能 会 尝试 输入 mean (cv_results) ， 但 由 于 cv_results 并 不 是 
数值 向 量 ， 所 以 会 报错 。 实 际 上 ， 应 该 使 用 unlist () 函数 ， 它 可 以 消除 列表 的 结构 ， 将 
cv_results 简化 成 一 个 数值 向 量 ， 然 后 我 们 可 以 像 期 望 的 那样 计算 Kappa 值 : 


> mean (Unlist(cv_results)) 
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[1] 0.1984929 
不 幸 的 是 ， 这 个 kappa 值 非常 低 (事实 上 .在 解释 评分 体系 中 对 应 着 “很 差 "， 说 明 这 个 
信用 记分 模型 的 效果 并 不 比 随机 猜测 好 很 多 。 在 下 一 章 中 ,我 们 将 基于 10 折 CV 方法 研究 自 
动 方法 来 帮助 我 们 改进 这 个 模型 的 性 能 。 
也 许 当 前 能 可 靠 地 估计 模型 性 能 的 最 好 标准 方法 是 重复 大 折 CV。 从 字面 意 
< 、 思 也 可 以 猜测 出 ， 它 重复 地 应 用 大 折 CV 方法 ， 然 后 对 结果 求 平 均值 。 常 用 
的 策略 是 将 10 折 CV 执行 10 次。 虽然 会 增加 运算 的 复杂 度 ， 但 是 可 以 得 到 
稳健 的 估计 。 


10.2.3 ”自助 法 抽样 

还 有 一 种 虽然 不 如 大 折 CV 这 么 受 欢迎 但 是 也 被 广泛 使 用 的 方法 是 自助 法 抽样 ( bootstrap 
sampling)， 简 称 自 助 法 ( bootstrap ) 。 一 般 来 说 ， 它 主要 指 一 些 统计 方法 ， 通 过 对 数据 进行 随 
机 抽样 的 方式 来 估计 大 数据 集 的 内 容 。 当 该 原理 应 用 到 机 器 学 习 模型 性 能 时 ， 意 味 着 创建 一 
些 随机 选取 的 训练 集 和 测试 集 ， 然 后 用 来 估计 性 能 的 统计 量 。 各 种 随机 产生 的 数据 集 的 结果 
可 以 通过 平均 值 计 算得 到 一 个 最 终 的 估计 值 ， 用 来 评估 未 来 的 性 能 。 

那么 ， 这 个 过 程 与 5 折 CV 有 什么 不 同 呢 ? 交叉 验证 方式 将 数据 分 成 彼此 分 隔 的 部 分 ， 
每 个 样本 只 能 出 现 一 次 ， 而 自助 法 通过 有 放 回 的 抽样 方式 使 得 每 个 样本 可 以 被 选择 多 次 。 这 
意味 着 假设 原始 数据 包含 个 样本 ,那么 自助 法 可 以 创建 一 个 或 者 多 个 仍然 包含 个 样本 的 
数据 集 ， 有 些 样本 是 重复 的 。 相 应 的 测试 数据 集 仍然 由 未 选 入 训练 集中 的 样本 来 构建 .。 

使 用 之 前 提 到 的 有 放 回 的 抽样 方式 ， 每 个 样本 包含 在 训练 集中 的 概率 是 63.2%。 因 此 ， 
样本 包含 在 测试 集中 的 概率 是 36.8%。 换 句 话 说 ,测试 集 只 能 代表 63.2% 的 可 能 样本 ， 因 为 
很 多 样本 重复 了 。 相 比 之 下 ，10 折 CV 方法 可 以 使 用 90% 的 数据 用 来 训练 ， 自 助 法 抽样 对 
完整 数据 集 的 代表 性 更 弱 。 

显然 ， 只 利用 63.2% 的 数据 训练 出 来 的 模型 的 性 能 不 如 更 大 量 数据 训练 出 来 的 模型 ， 对 
自助 法 性 能 的 估计 也 远 不 如 使 用 全 体 数据 训练 的 结果 。 有 一 种 特殊 的 自助 法 的 情况 可 以 处 理 
这 个 问题 ， 称 为 0.632 自助 法 ， 通 过 训练 数据 集 (过 于 乐观 ) 和 测试 数据 集 (过 于 翡 观 ) 的 
函数 来 计算 最 终 的 性 能 度量 。 最 终 的 错误 率 可 以 由 以 下 公式 计算 : 

错误 率 =0.632 x 错误 率 测 二 +0.368 x 错误 率 训 练 

自助 法 比 交 叉 验 证 具有 一 个 优势 ， 它 对 于 小 数据 集 的 效果 更 好 。 此 外 ， 自 助 法 抽样 在 性 能 度 

量 之 外 还 有 其 他 的 应 用 。 特 别 地 ， 第 11 章 将 学 习 如 何 利用 自助 法 抽样 的 原理 来 改善 模型 的 性 能 。 


10.3 总结 
本 章 介绍 了 评估 机 器 学 习 分 类 模型 性 能 最 常用 的 一 些 度量 方法 和 技术 。 虽 然 准确 度 提供 
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了 一 种 简单 的 方式 来 考察 模型 是 如 何 正 确 ， 但 是 在 一 些 不 常见 事件 的 情况 下 这 种 方法 会 产生 
误导 性 ， 因 为 真实 世界 中 这 类 事件 的 成 本 常常 与 它们 在 数据 中 出 现 的 频率 成 反比 。 

基于 混 消 和 矩阵 的 一 些 度量 方式 可 以 在 各 种 类 型 的 误差 成 本 之 间 更 好 地 捕捉 到 一 个 平衡 
点 。 在 灵敏 度 与 特异 性 之 间或 者 精确 度 与 回溯 精确 度 之 间 进 行 权衡 是 一 个 很 有 用 的 工具 ， 可 
以 帮助 考虑 真实 世界 中 误差 的 含义 。ROC 曲线 等 可 视 化 方法 也 有 助 于 这 个 目的 。 

同样 值得 注意 的 是 ， 有 了 时候 对 于 模型 性 能 的 最 好 度量 需要 考虑 其 是 否 满足 或 者 不 满足 一 
些 其 他 的 目标 。 例 如 ， 你 可 能 需要 能 够 用 简单 的 语言 来 解释 模型 的 逻辑 ， 那 么 很 多 模型 就 会 
不 在 考虑 之 内 。 此 外 ， 即 使 模型 的 性 能 非常 好 ， 但 如 果 计 算 速度 太 慢 或 者 很 难 扩展 到 生产 环 
境 中 ,那么 它 也 是 无 用 的 。 

对 于 度量 性 能 还 有 一 个 很 明显 的 扩展 ， 就 是 确定 自动 方式 来 针对 特定 的 任务 找到 最 好 的 
模型 。 在 第 11 章 中 ,我 们 将 基于 目前 为 止 的 工作 ， 研 究 通过 系统 地 迭代 、 改 善 以 及 合并 多 
种 算法 来 建立 更 智能 模型 的 方式 。 
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提高 模型 的 性 能 


当 一 个 运动 队 无 法 达到 他 们 的 目标 时 (得 到 奥运 金牌 、 联 赛 冠 军 或 者 创 世 界 纪录 )， 它 需 
要 开始 一 个 新 的 过 程 来 寻求 进步 的 空间 ， 从 而 避免 将 来 相似 的 命运 。 假 设 你 是 该 队 的 教练 ， 
你 会 如 何 安排 训练 的 内 容 呢 ”你 可 能 会 让 运动 员 训 练 得 更 加 刻苦 或 者 改变 训练 方式 来 开发 他 
们 所 有 的 潜能 。 或 者 ， 可 以 更 加 强调 团队 协作 ， 对 每 位 队员 的 优势 和 不 足 进行 更 好 地 利用 。 

现在 假设 你 是 一 个 以 寻求 世界 冠军 机 器 学 习 算 法 为 任务 的 教练 一 一 可 以 是 参加 Kaggle 
网 站 (http://www.kaggle.com/competitions) 竞赛 ， 去 赢 取 百 万 Netflix Prize ( http://wwwnetflixprize. 
com)， 或 者 只 是 简单 地 提高 生意 的 业绩 。 你 会 如 何 开 始 ? 

虽然 竞赛 的 内 容 可 能 不 同 ， 但 是 很 多 能 够 提高 运动 队 成 绩 的 策略 也 可 以 用 来 提高 统计 学 
习 器 的 性 能 。 作 为 一 个 教练 ， 工 作 就 是 寻找 训练 技术 和 团队 协作 技巧 的 组 合 ， 从 而 实现 成 绩 
上 的 目标 。 

本 章 将 基于 之 前 的 内 容 介 绍 一 些 能 提高 机 器 学 习 算 法 预测 性 能 的 技术 ， 你 会 学 到 :， 

口 如 何 通过 寻找 训练 条 件 的 优化 集合 来 调整 机 器 学 习 模 型 的 性 能 。 

口 将 多 个 模型 组 合 起 来 从 而 处 理 更 富 挑战 性 问题 的 方法 。 

口 获得 机 器 学 习 算 法 最 大 程度 性 能 的 最 先进 的 技术 。 

并 不 是 所 有 这 些 方法 都 适用 于 每 个 问题 ， 但 是 你 会 发 现在 机 器 学 习 竟 赛 中 的 胜利 者 至 少 
会 用 到 其 中 一 种 方法 。 为 了 保持 竞争 性 ， 你 也 需要 将 这 些 方法 加 入 到 你 的 技能 集 。 





11.1 调整 多 个 模型 来 提高 性 能 


有 些 机 器 学 习 问 题 都 很 适合 使 用 前 几 章 介绍 的 多 个 模型 。 在 这 种 情况 下 ， 我 们 不 需要 花 
太 多 的 时 间 进 行 迭代 和 优化 ， 它 已 经 足够 好 了 。 另 一 方面 ， 有些 问题 本 质 上 就 很 难 。 需 要 学 
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习 的 潜在 概念 极其 复杂 ， 需 要 对 很 多 微妙 的 关系 具有 很 好 的 理解 ， 或 者 可 能 具有 随机 元 素 ， 
使 得 从 噪声 中 分 离 有 用 的 信号 变 得 很 难 - 

对 这 些 如 此 困难 的 问题 开发 性 能 极 好 的 模型 是 一 门 科 学 ， 同 时 也 是 一 门 艺术 。 有 时 候 ， 
找 出 可 以 提高 性 能 的 领域 是 需要 一 些 直觉 的 。 而 另 一 些 情 况 下 ， 实 现 性 能 提高 可 能 需要 使 用 
蛮 力 和 反复 试验 的 方式 。 当 然 ， 寻 找 各 种 可 能 的 提高 方式 的 过 程 可 以 通过 使 用 自动 化 的 程序 
来 辅助 。 

在 第 5 章 中 ， 我 们 尝试 了 一 个 复杂 的 问题 ， 识 别 可 能 违约 的 贷款 。 虽 然 我 们 可 以 使 用 性 
能 调节 方法 得 到 一 个 可 以 接受 的 分 类 准确 度 72%， 但 是 根据 第 10 章 更 仔细 地 审视 后 ， 我 们 
认识 到 这 种 高 准确 度 可 能 会 造成 误导 。 尽 管 准确 度 非常 合理 ， 但 是 Kappa 统计 量 只 有 大 约 
0.2， 这 说 明了 该 模型 实际 的 性 能 其 实 是 有 些 糟 糕 的 。 在 这 一 节 中 ， 我 们 将 重新 研究 这 个 信用 
评分 模型 ， 看 看 如 何 对 结果 进行 改善 。 

要 是 想 跟着 例子 运行 程序 ， 需 要 到 Packt 出 版 社 网 站 下 载 credit .csv 
文件 ， 然 后 将 它 保 存 到 及 的 工作 目录 中 。 使 用 命令 credqait <- read. 
csVv(ncredit .csv') 将 文件 加 载 到 数据 框 。 


你 可 能 还 记得 ,我 们 最 首先 使 用 股票 C5.0 决策 树 来 对 这 个 信用 数据 建立 分 类 模型 。 然 
后 我 们 尝试 通过 调节 trials 参数 来 增加 提升 ( boosting) 迭代 的 次 数 从 而 提升 模型 的 性 能 。 
通过 将 默认 的 1 次 增加 到 10 和 100 次 ， 可 以 增加 模型 的 准确 度 。 调 节 模 型 合适 的 选项 的 过 
程 称 为 参数 调整 。 

参数 调整 并 不 仅 限于 决策 树 。 例 如 ， 我 们 通过 寻找 最 合适 的 上 值 来 调整 k 近邻 模型 。 在 
神经 网 络 和 支持 向 量 机 模型 中 使 用 大 量 的 选项 〈 比 如， 调节 节点 、 隐 层 的 数目 ， 或 者 选择 不 
同 的 核 函 数 )。 大 多 数 机 器 学 习 算 法 都 可 以 调整 至 少 一 个 参数 ， 而 大 多 数 复杂 的 模型 都 提供 
了 很 大 数目 的 方式 来 调整 模型 从 而 进行 更 好 的 拟 合 。 虽 然 这 可 以 让 模型 更 适合 数据 ， 但 是 尝 
试 所 有 可 能 选项 的 复杂 度 是 很 吓人 的 。 需 要 使 用 一 种 更 系统 的 方式 。 


使 用 caret 进行 自动 参数 调整 

与 其 对 模型 的 每 个 参数 选择 任意 值 ，( 这 样 做 不 仅 耗 时 而 且 不 科学 )， 不 如 对 搜索 参数 值 
的 过 程 进行 引导 从 而 找到 最 优 的 组 合 。 

我 们 第 10 章 广泛 使 用 的 caret 添加 包 提供 了 很 多 工具 可 以 帮助 自动 参数 调整 。 最 核心 
的 功能 是 提供 了 一 个 train () 函数 作为 标准 接口 ， 为 分 类 和 回归 任务 训练 150 种 不 同 的 机 
器 学 习 模型 。 使 用 该 函数 时 ， 可 以 选择 评估 的 方法 和 度量 ， 它 自动 搜寻 一 个 最 优 的 模型 。 


”不 要 被 这 么 多 个 模型 吓 到 了 一 我 们 在 之 前 的 章节 中 已 经 见 到 了 很 多 。 其 他 
QQ 的 很 多 模型 都 是 这 些 基本 概念 的 扩展 或 者 变种 。 在 当前 学 习 的 基础 上 ， 你 要 
相信 你 已 经 具备 了 理解 这 150 种 选择 的 能 力 。 


自动 参数 调整 需要 考虑 以 下 3 个 问题 : 
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口 需要 使 用 数据 来 训练 哪 种 机 器 学 习 模 型 (或 者 算法 的 具体 实现 ) ? 
口 哪些 模型 参数 是 可 以 调整 的 ， 它 们 能 调整 的 空间 有 多 大 ? 
es 
答 第 一 个 问题 需要 在 机 器 学 习 的 任务 和 150 个 模型 之 间 做 适当 的 匹配 。 显 然 ， 需 要 
We em no in 本 书 提供 了 前 者 所 需要 的 背景 ， 额 外 的 练 
习 对 后 者 很 有 用 。 此 外 ， 排 除法 也 很 有 用 : 通过 判断 任务 是 分 类 还 是 回归 就 可 以 排除 几乎 一 
半 的 模型 ， 其 他 的 可 以 通过 数据 的 形式 或 者 避免 黑箱 的 模型 来 排除 。 不 管 怎样 ， 你 还 可 以 尝 
试 多 种 模型 ， 然 后 通过 比较 模型 的 结果 来 选择 一 个 最 好 的 。 
第 二 个 问题 很 大 程度 上 是 被 模型 的 选择 所 决定 的 ， 因 为 每 个 算法 使 用 唯一 的 一 套 参数 . 
本 书 涉及 的 预测 模型 的 可 调节 参数 都 列 在 下 表 中 。 注 意 ， 虽 然 有 些 模型 还 有 没 列 出 来 的 选 
项 ,但 是 caret 添加 包 只 支持 下 表 中 列 出 的 选项 。 
要 想 知 道 这 150 个 模型 以 及 相关 的 可 调节 参数 的 详细 信息 ， 可 以 参考 
人 caret 添加 包 的 作者 Max Kuhn 提供 的 表 : http://caret.r-forge.r-project.org/ 
modelList.html。 


模型 学 习 任务 方法 名 参数 
KE x 
休 表 由 ET 
决策 树 model, trials, winnow 
OneR 规 出 学 习 名 天 
RIPPER 规则 学 习 器 Numopt 
线性 回归 lm 无 
问 月 os 
模型 树 M5 pruned, smoothed, rules 
ETEE size，decay 


支持 向 量 机 (线性 核 ) G 

支持 向 量 机 ( 径 向 基 核 ) C，sigma 

CT Ry 

自动 调整 的 目标 是 搜索 候选 模型 的 集合 ， 该 集合 由 所 有 参数 组 合 的 矩阵 或 者 网 格 的 形式 

构成 。 因 为 要 想 遍 历 所 有 参数 的 所 有 可 能 值 是 难以 实现 的 ， 所 以 只 选择 参数 可 能 值 的 一 些 子 
集 来 构建 网 格 。caret 默认 对 每 个 参数 最 多 搜索 3 个 可 能 值 ， 假 设 一 共有 p 个 参数 ， 这 意 
味 着 3? 个 候选 模型 将 会 被 测试 。 例 如 ， 默 认 情 况 下 ， 自 动 调整 的 k 近邻 模型 将 比较 3'=3 个 
候选 模型 ， 比 方 说 k=5、k=7 和 k=9。 类 似 地 ， 调 整 决 策 树 模 型 将 比较 27 个 不 同 的 候选 模 
型 ， 由 model、trials 和 winnow 值 组 成 的 3:=27 种 可 能 的 网 格 来 实现 。 在 实践 中 ， 只 
有 12 个 模型 被 实际 测试 到 ， 因 为 model 和 winnow 参数 只 能 选取 两 个 值 (分 别 是 tree 与 
rules 和 TRUE 与 FRLSE)， 那 么 网 格 的 大 小 是 3 x 2 x 2=12。 
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、_ 因为 caret 默认 的 搜索 网 格 对 于 实际 的 机 器 学 习 问题 可 能 不 是 很 理想 ， 所 
以 以 该 函数 还 允许 用 户 自 定义 搜索 网 格 ， 通 过 简单 的 命令 即 可 定义 。 我 们 会 在 
后 面 进行 介绍 . 


自动 模型 调整 的 第 三 个 也 是 最 后 一 个 步骤 是 选择 一 种 方法 从 候选 者 中 识别 最 好 的 模型 。 
我 们 使 用 第 10 章 讨 论 过 的 方法 (比如 ， 选 择 重 采样 的 策略 ) 来 创建 训练 集 和 测试 集 ， 或 者 使 
用 度量 预测 准确 度 的 模型 性 能 统计 量 。 

Caret 添加 包 支 持 我 们 介绍 过 的 所 有 重 采样 策略 和 大 部 分 的 性 能 统计 量 ， 包 括 准 确 度 和 
Kappa 值 (用 于 分 类 器 ) 以 及 及 方 值 或 者 RMSE (用 于 数值 模型 ) 等 统计 量 。 如 果 需 要 的 话 ， 
也 可 以 使 用 代价 敏感 度 方面 的 度量 方式 ， 比 如 灵敏 度 、 特 异性 、ROC 曲线 下 面积 (AUC) 等 。 

默认 情况 下 ，caret 在 选择 最 优 模型 时 ， 通 过 这 些 性 能 度量 指标 的 最 大 值 来 选择 。 因 为 
这 样 的 方法 在 实践 中 有 时 会 通过 大 量 增加 模型 复杂 度 的 方式 来 选择 边际 性 能 递增 的 模型 ， 该 
添加 包 也 提供 了 可 供 选 择 的 其 他 函数 。 

在 各 种 选项 中 ， 大 部 分 默认 值 都 是 比较 合理 的 。 例 如 ， 在 分 类 模型 中 使 用 自助 法 抽样 的 预测 
准确 度 来 选择 最 优 性 能 的 优化 器 。 从 这 些 默认 值 开始 ， 我 们 使 用 trzain () 函数 来 设计 各 种 实验 。 


1. 创建 简单 的 调整 的 模型 


为 了 说 明 调整 模型 的 过 程 ， 先 来 看 看 当 我 们 尝试 使 用 caret 添加 包 的 默认 设置 来 调整 
信用 评分 模型 时 会 发 生 什 么 。 从 这 里 我 们 可 以 学 到 如 何 调整 选项 。 

最 简单 的 调整 模型 的 方式 只 需要 通过 method 参数 来 指定 模型 的 类 型 。 因 为 我 们 之 前 
使 用 C5.0 决策 树 的 方法 对 信用 数据 建 模 ， 所 以 我 们 通过 优化 模型 的 方式 来 继续 之 前 的 工作 。 
使 用 默认 设置 来 调整 C5.0 决策 树 的 基础 train () 的 命令 如 下 : 


> library (caret) 
> set.seed(300) 
> m <- train(default ~ ., data = credit, method = "C5.0") 


首先 ，set .seed() 函数 用 来 初始 化 R 的 随机 数 发 生 器 。 我 们 在 前 面 的 章节 里 用 过 很 
多 次 。 通过 设 定 seed 参数 (这 里 我 们 设置 为 一 个 任意 的 300 )， 可 以 使 随机 数 遵 循 一 个 预先 
设 定 的 序列 。 这 可 以 使 得 类 似 train () 这 样 使 用 随机 抽样 的 模拟 方法 能 够 在 重复 运行 中 得 

么 这 是 非常 有 用 的 。 

ry R 的 公 \ 趟 接口 可 以 把 树 定义 成 default~.。 它 表示 我 们 对 贷款 违约 的 状态 (yes 
或 者 no) 进行 建 模 ， 使 用 了 信用 数据 集中 的 所 有 其 他 变量 。 参 数 method = "C5 .0" 告诉 
caret 使 用 C5.0 决策 树 算法 。 

输入 了 之 前 的 命令 后 ， 开 始 执行 调整 过 程 ， 可 能 会 有 显著 的 延迟 (取决 于 计算 机 的 配 
置 )。 即使 是 很 少量 的 数据 集 ， 也 需要 非常 巨大 的 计算 量 。R 会 重复 地 生成 数据 的 随机 抽样 ， 
建立 决策 树 模 型 ， 计 算 性 能 统计 量 ， 并 且 对 结果 进行 评估 。 

| 吉 果 存储 到 一 个 对 象 中 ， 我 们 命名 为 m。 如 果 要 查看 该 对 象 的 内 容 ， 命 令 
stz (m) 会 列 出 所 有 相关 的 数据 一 一 但 是 这 种 方式 得 到 的 信息 太 多 了 。 简 单 地 键入 该 变量 
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名 ， 就 会 得 到 摘要 的 结果 。 例 如 ， 键 入 m 后 会 产生 如 下 的 结果 : 


1000 samples 
16 predictors 
2 classes: “no ， "yes 
NO pre-processing 
Resampling: Boot5trap (25 reps) 
summary of sample sizes: 1000, 1000, 1000, 1000, 1000, 1000, ... 
©O Resampling results across tuning parameters: 
model trials winnow Accuracy Kappa Accuracy 5D Kappa sD 
1 FAL 0.685 “ 0°bB8 0.0256 " 0°8862 


rules 10 FALSE 0.711 0.309 0.0209 0.0459 
rules 10 TRUE 0.711 0.304 0.0195 0.0448 
rules 20 FALSE 0.722 0.326 0.0198 0,0451 
rules 20 TRUE 0.723 0.327 0.0184 0.0371 
tree FALSE 0.677 0.229 0.0303 0.07 

tree 1 TRUE 0.677 0.222 0. 0,.0596 
tree 10 FALSE 0.722 0.288 0.0206 0.056 
tree 10 TRUE 0.717 0.278 0， 0.0436 
tree 20 FALSE 0.73 0.307 0.0201 0.0562 
tree 20 TRUE 0.729 0.306 0. 0.0415 


The final values used for the model were model mw tree, tria 


©@ Accuracy was used to select the optimal mode]l using the Tatgest Ve 
5 mm 
and winnow = FALSE, 


该 结果 包含 以 下 几 个 主要 的 部 分 : 

1 ) 输入 数据 的 简单 描述 : 如果 你 熟悉 数据 并 且 正 确 地 应 用 了 train() 函数 ,那么 在 该 
言 息 中 不 会 看 到 意 想不到 的 结果 。 

2 ) 预 处 理 和 重 抽 样 方法 应 用 情况 的 信息 : 我 们 可 以 看 到 25 个 自助 法 样本 ， 每 一 个 都 包 
含 1000 个 样本 ， 用 来 建 模 。 

3 ) 候选 模型 评估 的 列表 : 在 这 一 节 里 ， 我 们 可 以 确信 12 个 不 同 的 模型 被 测试 到 了 ， 基 
于 3 个 C5.0 调 整 参数 的 组 合 : model、trials 和 winnow。 每 个 候选 模型 的 准确 度 和 
Kappa 统计 量 的 均值 和 标准 差 (标记 为 SD) 都 得 到 了 展示 。 

4 ) 最 佳 模型 的 选择 根据 提示 ， 具 有 最 大 准确 度 ( 0.73 ) 的 模型 被 选 为 最 佳 。 该 模型 使 
用 的 参数 情况 为 model = tree、trials = 20、 winnow = FALSE。 

train() 函数 使 用 最 佳 模型 (前 面 4， 介 绍 的 ) 中 的 参数 对 所 有 数据 建立 模型 ， 并 将 其 
存储 在 m$finalModel 对 象 中 。 在 大 多 数 情况 下 ， 无需 直接 操作 finalModel 子 对象 ， 
而 是 使 用 predict () 函数 通过 mm 对 象 来 进行 预测 ， 同 时 还 提供 了 一 些 额 外 的 功能 ， 我 们 马 
上 会 进行 介绍 。 例 如 ， 将 最 佳 模型 应 用 到 训练 数据 中 进行 预测 ， 可 以 使 用 以 下 命令 : 

> p <- Predict (m, credit) 

预测 的 结果 向 量 可 以 像 我 们 之 前 做 过 很 多 次 的 那样 操作 : 


> table(p, credits$default) 


p no yes 
no 700 2 
yes 0 298 


在 用 来 训练 最 终 模 型 的 1000 个 样本 中 ， 只 有 2 个 被 错误 地 分 类 。 记 住 ， 这 只 是 重新 代 
和 误差， 不 能 看 成 是 对 未 来 数据 性 能 的 度量 。 自 助 法 估计 的 73% (输出 结果 中 有 显示 ) 是 对 
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未 来 性 能 的 一 个 更 现实 的 估计 。 

之 前 提 到 过 ,将 predict () 直接 用 于 train() 对 象 还 会 有 额外 的 好 处 ， 注 意 不 是 调 
用 finalModel 子 对 象 或 者 使 用 最 佳 模型 的 参数 来 训练 新 模型 。 

首先 ，train() 函数 应 用 到 数据 中 的 任何 数据 预 处 理 方法 也 会 用 类 似 的 方式 应 用 到 产生 
预测 的 数据 中 。 这 和 包括 中 心 化 和 标准 化 (使 用 k 近邻 ) 的 数据 转换 、 缺 失 值 处 理 以 及 一 些 其 
他 方法 。 这 确保 用 来 建 模 的 数据 准备 步 又 在 模型 部 署 后 仍然 保留 。 

其 次 ，predict () 函数 提供 了 标准 的 接口 用 来 得 到 预测 的 类 别 值 和 概率 一 一 即使 是 通 
党 的 模型 也 需要 额外 的 步骤 来 得 到 这 些 信息 。 预 测 的 类 别 会 默认 提供 ， 如 下 所 示 : 

> head (predict (m, credit)) 


[1] no Yes no no yes no 
Levels: no yes 


要 想得到 每 一 类 估计 的 概率 ， 只 需要 设置 一 个 额外 的 参数 type = "prob": 


> head (predict (m, credit, type = "prob")) 
no yes 

1 0.9606970 0.03930299 

2 0.1388444 0.86115561 

3 1.0000000 0.00000000 

4 0.7720279 0.22797208 

5 0.2948062 0.70519385 

6 0.8583715 0.14162851 


即使 有 些 情 况 下 底层 的 模型 会 使 用 不 同 的 字符 串 来 表示 预测 概率 值 (比如 ， 朴 素 贝 叶 斯 
模型 使 用 "raw" ), 但 caret 自动 在 后 台 将 type = "prob" 转 成 其 需要 的 形式 。 


2. 定制 调整 的 过 程 

我 们 之 前 创建 的 决策 树 证 明 caret 添加 包 可 以 在 最 少 介 和 下 生成 最 优 模型 。 默 认 设置 
可 以 使 高 性 能 的 模型 能 够 很 容易 创建 。 但 是 ， 如 果 不 进行 深入 研究 ， 你 可 能 会 错过 性 能 方面 
最 高 端的 部 分 。 或 者 你 可 能 需要 改变 默认 的 评估 标准 从 而 更 适合 自己 的 机 器 学 习 问 题 。 之 前 
介绍 的 每 一 个 步骤 都 是 可 以 针对 具体 学 习 任务 进行 定制 。 

为 了 更 灵活 地 说 明 这 些 ， 我 们 对 之 前 介绍 的 信贷 决策 树 的 工作 进行 一 些 修改 ， 从 而 反 
映 我 们 在 第 10 章 使 用 的 过 程 。 如 果 你 还 记得 这 一 章 的 话 ， 我 们 使 用 了 10 折 交 叉 验 证 来 估计 
Kappa 统计 量 。 这 里 我 们 会 做 相同 的 事情 ， 使 用 Kappa 优化 决策 树 的 提升 (boosting) 参数 
(提升 第 5 章 介绍 的 决策 树 的 准确 度 )。 

trainControl() 函数 用 来 创建 一 系列 的 配置 选项 ， 也 称 为 控制 对 象 ， 与 train () 
函数 一 起 使 用 。 这 些 选 项 考虑 到 了 诸如 重 抽样 策略 以 及 用 于 选择 最 佳 模型 的 度量 这 些 模 型 评 
价 标准 的 管理 。 虽 然 该 函数 可 以 用 于 几乎 所 有 参数 调整 的 方面 ， 但 是 我 们 只 专注 于 两 个 重要 
的 参数 : method 和 selectionFunction。 


< 如 果 你 期 望 了 解 得 更 详细 ， 可 以 使 用 ?trainControl 帮助 命令 来 得 到 所 
有 参数 的 列表 。 
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对 于 trainControl () 函数 ，method 参数 用 来 设置 重 抽 样 的 方法 ， 例 如 保持 抽样 或 
者 k 折 交叉 验证 。 下 表 列 出 了 caret 调用 这 些 方 法 时 使 用 的 缩写 ， 以 及 用 来 调节 样本 量 和 
迭代 次 数 的 所 有 额外 参数 。 虽 然 这 些 重 抽样 方法 的 默认 值 遵 循 最 受 欢 迎 的 惯例 ， 但 你 也 可 以 
根据 自己 的 样本 量 和 模型 的 复杂 度 进行 调整 。 


重 抽样 方法 额外 的 选项 和 默认 值 
保持 抽样 p = 0.75 (训练 数据 比例 ) 
k 折 交 叉 验 证 number = 10( 折 的 数目 ) 

_ 要 number = 10 T 芯 ] 

重复 k 折 交 义 验 证 repeatedcv gE one 
自助 法 抽样 number = 25 ( 重 抽样 迁 代 的 次 数 ) 
0.632 自助 法 number =- 25 ( 重 抽样 迁 代 的 次 数 ) 
久 一 交叉 验证 沁 


trainControl () 函数 的 selectionFunction 参数 可 以 设 定 一 函数 用 来 在 各 个 候 
选 者 中 选择 最 优 的 模型 。 其 中 包含 了 3 个 函数 。best 函数 简单 地 选择 具有 最 好 的 某 特定 度 
量 值 的 候选 者 ， 这 是 默认 的 选项 。 另 外 两 个 郴 数 用 来 在 最 好 模型 性 能 的 特定 姜 值 之 内 选择 最 
节俭 的 (或 者 说 最 简单 的 ) 模型 。oneSE 函数 选择 最 好 性 能 标准 差 之 内 的 最 简单 的 候选 者 。 
Tolerance 选择 某 个 用 户 指定 比例 之 内 的 最 简单 的 候选 者 。 


~ caret 添加 包 使 用 简易 度 来 对 模型 进行 排序 容易 陷入 主观 。 要 想 知 道 模 型 
是 如 何 排序 的 ， 可 以 通过 使 用 ?best 帮助 函数 来 得 到 帮助 页 面 。 


使 用 10 折 交 叉 验 证 和 oneSsE 选择 函数 可 以 创建 一 个 名 为 ctzl 的 控制 对 象 ， 如 下 代码 
所 示 。 注意 number = 10 只 是 为 了 演示 得 更 清楚 ， 因 为 它 是 method = "cv" 时 的 默认 
值 ， 本 来 是 可 以 省 略 的 。 


> ctrl <- trainControl (method = "cv", number = 10， 
selectionFunction = "oneSE") 
我 们 可 以 马上 使 用 该 函数 的 结果 。 


同时 ， 我 们 定义 我 们 实验 的 下 一 个 步骤 是 创建 用 来 优化 参数 的 网 格 。 网 格 的 每 一 列表 
示 模 型 中 的 一 个 参数 ， 前 面 用 点 号 作为 前 级 。 因 为 使 用 C5.0 决策 树 ， 所 以 这 意味 着 我 们 名 
为 .model、.trials 和 .winnow 的 列 。 对 于 其 他 模型 ， 参考 本 章 之 前 的 表 。 数 据 框 中 的 
每 一 行 代表 一 种 特定 的 参数 值 的 组 合 。 

如 果 不 想 自 己 手 工 创建 这 样 的 数据 框 (如 果 参 数值 的 可 能 组 合 数 太 多 时 就 非常 困难 )， 可 
以 使 用 expand .grid() 函数 ， 它 能 利用 所 有 值 的 组 合 创建 数据 框 。 例 如 ， 假 设 需要 参数 
model = "tree" 和 winnow = "FALSE" 保持 不 变 ， 同 时 trials 需要 选择 8 个 值 。 可 
以 使 用 如 下 方式 创建 : 


> grid <- expand.grid(.model = "tree', 
trials = E 人 (1 5; 10, 15, 20; 25; 30;, 35), 
-winnow = "FALSE") 
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结果 数据 框 grid 包含 1 x 8 x 1=8 行 : 


5 grid 

.model .trials .winnow 
1 tree 1 FALSE 
2 tree 5 FALSE 
tree 10 FALSE 
4 tree 15 FALSE 
5 tree 20 FALSE 
6 tree 25 FALSE 
7 tree 30 FALSE 
8 tree 35 FALSE 


每 一 行 都 可 以 用 来 创建 一 个 候选 模型 ， 使 用 该 行 中 模型 参数 的 组 合 来 构建 。 

给 定 这 个 搜索 网 格 和 之 前 创建 的 控制 列表 后 ， 我 们 已 经 准备 好 运行 完全 定制 的 
train() 实验 。 与 之 前 一 样 ， 我 们 设置 随机 数 种 子 来 确保 可 重复 的 结果 。 但 是 这 一 次 ,我 
们 传送 的 是 自己 定制 的 控制 对 象 和 调整 参数 的 网 格 ， 同 时 添加 参数 metric = "Kappa"， 
表示 模型 评估 函数 用 到 的 统计 量 一 一 在 这 个 例子 中 ， 是 oneSE。 完 整 的 命令 如 下 所 示 : 

> set.seed(300) 

> m <- train(default ~ ., data = credit, method = "C5.0", 

metric = "Kappa", 


trControl = ctrl, 
tuneGrid = grid) 


结果 是 一 个 对 象 ， 我 们 可 以 像 之 前 一 样 来 查看 : 


> mm 
1000 samples 
16 predictors 
2 classes: ‘no', "yes" 


No pre-processing 
Resampling: Cross-validation (10 fold) 


summary of sample sizes: 900, 900, 900, 900, 900，900，... 
Resampling results across tuning parameters: 


trials Accuracy Kappa Accuracy SD Kappa sD 
0.724 0.312 0.0255 0.059 


工 2 5 

5 0.713 0.292 0.0211 0.0602 
10 0.719 0.295 0.0311 0.0672 
5 0.721 0.301 0.0197 0.0511 
20 0.717 0.293 0.0279 0.0791 
23 0.728 0.315 0.0322 0.0937 
30 0.729 0.31 0.0277 0.0807 
35 0.741 0.339 0.0314 0.0935 


Tuning parameter ‘model' was held constant at a value of ‘tree’' 
Tuning parameter “wjnnow”was held constant at a Value of ‘FALSE" 
Kappa was used to select the optimal model using the one sE rule. 
The final values used for the model were model = tree, trials =1 
and winnow = FALSE. 


虽然 很 多 结果 都 与 之 前 调整 模型 的 一 样 ， 但 是 也 有 一 些 不 同 。 因 为 使 用 了 10 折 交 又 验 
证 ， 所 以 建立 候选 模型 的 样本 量 减 到 了 900， 而 不 是 自助 法 中 的 1000。 按 照 我 们 的 要 求 ， 对 
8 个 候选 模型 进行 了 测试 。 此 外 ， 因 为 model 和 winnow 保持 不 变 ， 所 以 它们 的 值 不 再 显 
示 在 结果 中 ， 而 是 显示 在 脚注 中 。 
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这 里 的 最 佳 模型 与 先前 的 实验 有 很 大 的 不 同 。 之 前 ， 最 佳 模型 使 用 了 trials = 20， 
但 是 这 里 最 佳 模型 使 用 了 trials = 1。 这 看 起 来 很 奇怪 ， 实 际 上 因为 我 们 使 用 了 oneSE 
规则 而 不 是 之 前 的 best 规则 来 选择 模型 。 即 使 trials 为 35 的 模型 按照 Kappa 值 提 供 了 最 好 
的 性 能 ， 但 是 trials 为 1 的 模型 也 具有 差不多 的 性 能 ， 但 是 要 简单 得 多 。 简 单 的 模型 更 可 取 ， 
不 仅 是 因为 它们 具有 更 好 的 计算 性 能 ， 而 且 还 能 减少 过 拟 合 的 可 能 性 。 


11.2 ”使 用 元 学 习 来 提高 模型 的 性 能 


另 一 种 提高 单个 模型 性 能 的 方法 是 将 多 个 模型 合并 成 一 个 更 强 的 组 。 正 如 最 好 的 运动 队 
通常 都 是 拥有 能 力 互 补 的 队员 ， 而 不 是 能 力 互 相 重 全 ,最 好 的 机 器 学 习 算 法 也 会 利用 多 个 互 
补 的 模型 的 组 合 。 因 为 模型 对 特定 学 习 任务 具有 独特 的 偏爱 ， 所 以 它 可 能 对 样本 的 某 个 子 集 
很 适合 但 是 对 其 他 的 不 适合 。 因 此 ， 通 过 使 用 几 个 不 同 组 员 的 能 力 ， 可 以 创建 组 员 较 弱 但 整 
个 小 组 很 强 的 模型 。 

这 种 组 合 和 管理 多 个 模型 的 预测 技术 属于 一 套 更 广泛 的 元 学 习 方法 ， 该 方法 包含 了 所 有 
涉及 如 何 学 习 的 技术 。 它 可 以 包含 从 通过 自动 迭代 设计 决策 来 提升 性 能 的 简单 算法 (例如 ， 
使 用 本 章 前 面 提 到 的 自动 调整 参数 的 方法 )， 到 借鉴 了 进化 生物 学 和 遗传 学 的 自修 改 和 自 适应 
学 习 方式 的 复杂 算法 。 

在 本 章 的 剩余 部 分 ， 我 们 将 关注 元 学 习 ， 只 因为 它 适 合 对 多 个 模型 的 预测 和 要 求 的 结果 
之 间 的 关系 建 模 。 这 里 包含 的 团队 学 习 技术 非常 强大 ， 也 经 常用 来 建立 更 有 效 的 分 类 器 。 


11.2.1 “理解 集成 学 习 

假设 你 是 一 个 电视 问答 节目 的 参与 者 ， 正 在 回答 百 万 大 奖 的 最 后 一 个 问题 ， 可 以 选择 由 
5 位 好 友 组 成 的 亲友 团 帮忙 答题 。 大 多 数 人 会 选择 各 个 不 同 领 域 的 专家 。 例 如 ， 该 亲友 团 包 
括 文学 、 科 学 、 历 史 、 艺 术 方 面 的 教授 ， 以 及 一 个 熟悉 当前 流行 文化 的 专家 ， 这 是 一 个 稳 受 
而 全 面 的 小 组 。 因 为 他 们 的 知识 面 很 广 ， 所 以 不 太 可 能 遇 到 他 们 都 不 熟悉 的 问题 。 

利用 类 似 的 创建 一 个 多 样 性 专家 组 的 原理 的 元 学 习 方法 也 称 为 集成 学 习 (ensemable ) 。 
所 有 的 集成 学 习 方 法 都 是 基于 结合 多 个 很 弱 的 学 习 器 来 创建 一 个 很 强 学 习 器 的 思路 。 用 这 个 
简单 的 原理 ， 可 以 开发 各 种 算法 ， 通 过 以 下 两 个 问题 来 区 分 : 

口 如 何 选择 或 者 构造 那些 较 弱 的 学 习 模 型 ? 

口 如 何 将 这 些 较 弱 的 学 习 模 型 的 预测 结果 组 合 起 来 形成 最 终 的 预测 ? 

在 回答 这 些 问题 时 ， 依 据 以 下 的 流程 图 来 想象 集成 的 过 程 是 很 有 帮助 的 ， 几 乎 所 有 的 集 
成 方法 都 遵循 这 个 模式 。 

首先 ， 输 入 训练 数据 用 来 建立 很 多 个 模型 。 分 配 函 数 决定 每 个 模型 接收 完整 的 训练 数据 
集 还 是 某 个 抽样 的 样本 。 因 为 理想 的 集成 学 习 包含 各 种 不 同 的 模型 ， 所 以 分 配 函 数 可 以 通过 
人 工 改变 输入 数据 来 训练 各 种 模型 的 方式 来 增强 多 样 性 。 例 如 ， 它 可 以 使 用 自助 法 抽样 来 构 
造 单一 的 训练 数据 集 ， 或 者 将 不 同 特征 的 子 集 或 样本 传送 给 每 个 模型 。 另 一 方面 ， 如 果 集 成 
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学 习 已 经 包含 了 多 种 算法 (例如 ， 神 经 网 络 、 决 策 树 以 及 k 近邻 分 类 器 )， 那 么 分 配 函 数 将 传 
送 相 对 没 改变 的 数据 。 





创建 模型 后 ， 它 们 可 以 用 来 产生 一 系列 的 预测 ， 这 需要 用 一 些 方式 来 管理 。 组 合 函 数 用 
来 对 预测 中 的 不 一 致 进行 调解 。 例 如 ， 集 成 学 习 可 能 利用 投票 表决 来 决定 最 终 的 预测 ， 或 者 
使 用 更 复杂 的 策略 〈 例 如 ， 根 据 模型 的 先 验 性 能 ) 对 其 票数 进行 加 权 。 

有 些 集成 学 习 其 至 使 用 另 一 个 模型 从 各 种 预测 的 组 合 中 学 习 一 个 组 合 函数 。 例 如 ， 当 
M1 和 M2 都 投票 Yes 而 实际 常常 是 No 时 ， 集 成 学 习 可 以 忽略 M1 和 M2 的 投票 然后 直接 预 
测 为 No。 这 种 使 用 多 个 模型 的 预测 来 训练 一 个 仲裁 模型 的 过 程 称 为 堆 到 (stacking)。 

使 用 集成 学 习 的 一 个 好 处 是 能 够 节省 寻求 单一 最 佳 模型 的 时 间 。 只 需要 训练 一 批 表 现 沿 
可 的 候选 者 然后 整合 它们 即 可 。 当 然 ， 便 利 性 并 不 是 基于 集成 学 习 的 方法 常常 可 以 在 机 器 学 
习 竞 赛 中 获胜 的 唯一 原因 。 集 成 学 习 与 单一 模型 相 比 还 有 很 多 性 能 上 的 优势 : 

口 对 于 未 来 问题 更 好 的 普 适 性 : 因为 不 同学 习 器 的 意见 都 成 为 了 最 终 预 测 结果 的 一 部 分 ， 

所 以 单一 的 偏好 不 会 处 于 主导 地 位 。 这 可 以 降低 学 习 时 过 拟 合 的 可 能 性 。 

口 可 以 提升 大 量 数据 或 少量 数据 的 性 能 : 很 多 模型 在 处 理 数目 巨大 的 特征 或 者 样本 时 常 
常会 遇 到 内 存 或 者 复杂 度 的 限制 ， 训 练 多 个 小 的 数据 集 比 训练 单个 大 的 数据 集会 更 有 
效 。 此 外 ， 集 成 学 习 经 常 使 用 分 布 式 的 计算 方法 。 相 反 地 ， 集 成 学 习 对 于 最 小 的 数据 
集 也 能 有 很 好 的 表现 ， 因 为 很 多 重 抽 样 方法 (例如 ， 自 助 法 ) 本 身 就 是 很 多 集成 设计 
的 固有 方法 。 

口 将 不 同 领域 数据 合成 的 能 力 : 因为 不 存在 一 刀 切 的 学 习 算法 (可 以 参考 天 下 没有 人 免费 
午餐 的 理论 )， 所 以 在 各 种 不 同 领域 都 在 持续 产生 大 数据 时 ， 集 成 学 习 可 以 把 多 种 类 
型 的 学 习 器 得 到 的 信息 整合 起 来 的 能 力 变 得 越 来 越 重 要 。 

口 对 于 困难 学 习 任 务 更 细致 的 理解 。 真 实 世界 的 想象 常常 因为 各 种 相互 影响 错综复杂 的 
因素 而 非常 复杂 。 将 任务 分 解 成 很 多 小 部 分 的 模型 可 以 更 精确 地 捕捉 到 单一 的 全 局 模 
型 容易 遗漏 的 细小 模式 。 

如 果 不 能 很 简单 地 使 用 R 来 应 用 这 些 方 法 ,那么 以 上 的 好 处 是 没有 用 的 ， 很 多 R 添加 包 
要 做 的 正 是 这 些 。 让 我 们 看 看 几 个 最 受 欢迎 的 集成 学 习 方 法 以 及 它们 如 何 对 我 们 之 前 的 信用 
模型 的 性 能 进行 提升 。 
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11.2.2 bagging 

得 到 广泛 认可 的 最 好 的 集成 学 习 方 法 之 一 的 技术 是 自助 汇聚 法 ， 简 称 为 bagging 方法 。 
Leo Breiman 在 1994 年 对 该 方法 进行 过 描述 ，bagging 对 原始 训练 数据 使 用 自助 法 抽样 的 方 
式 产生 很 多 个 训练 数据 集 。 这 些 数据 集 使 用 单一 的 机 器 学 习 算 法 产生 多 个 模型 ， 然 后 使 用 投 
票 (对 于 分 类 问题 ) 或 者 平均 (对 于 数值 预测 ) 的 方法 来 组 合 预测 值 。 


Cm 关于 bagging 的 更 多 信息 ， 请 参考 Bagging predictors,Machine Learning, Vol. 
一 24.pp. 123-140, by L. Breiman (1996). 


虽然 bagging 是 一 种 相对 简单 的 集成 学 习 器 ,但 是 只 要 它 使 用 相对 不 稳定 的 学 习 器 就 能 
得 到 很 好 的 效果 ， 不 稳定 学 习 器 会 随 着 数据 发 生 的 很 小 变化 产生 差别 很 大 的 模型 。 不 稳定 模 
型 是 必 不 可 少 ， 因 为 可 以 确保 当 自 助 法 的 数据 集 之 间 的 差异 很 小 时 集成 学 习 也 能 具有 很 好 的 
多 样 性 。 基 于 这 个 原因 ，bagging 经 常 和 决策 树 一 起 使 用 ， 因 为 决策 树 倾 向 于 随 着 数据 的 微 
小 变化 发 生 比 较 大 的 改变 。 

ipred 添加 包 提 供 了 bagging 决策 树 的 经 典 实现 。bagging () 函数 与 之 前 介绍 的 很 多 
模型 的 使 用 方式 类 似 。nbagg 参数 控制 用 来 投票 的 决策 树 的 数目 (默认 值 是 25)。 依 赖 于 学 
习 任 务 的 难度 和 训练 数据 的 数量 ， 增 加 该 数值 可 以 提升 模型 的 性 能 ， 一 直到 某 个 极限 。 不 利 
之 处 是 这 会 带 来 很 多 额外 的 计算 量 。 决 策 树 越 多 ,训练 的 时 间 也 会 越 长 。 

安装 ipred 添加 包 后 ， 可 以 按照 如 下 的 方式 创建 集成 学 习 。 我 们 使 用 默认 的 25 个 决策 树 。 

> library (ipred) 


> set.seed(300) 
> mybag <- bagging(default ~ ., data = credit, nbagg = 25) 


产生 的 模型 可 以 被 predict () 函数 使 用 : 


> credit pred <- predict (mybag, credit) 
> table(credit pred, credit$default) 


credit pred no yes 
no 699 2 
yes 1 298 


根据 之 前 的 结果 ， 该 模型 看 上 去 对 训练 数据 拟 合 得 非常 好 。 要 想 知道 它 在 未 来 的 性 能 方 
面 表 现 如 何 ， 可 以 通过 caret 添加 包 中 的 train() 函数 使 用 10 折 交 叉 验 证 的 方法 来 建立 
bagging 树 。 注 意 ipred 添加 包 中 的 bagging 树 的 函数 是 treebag， 如 下 所 示 : 


> library (caret) 

> set.seed(300) 

> Ctrl <- trainControl (method = "cv", number = 10) 

> train(default ~ ., data = credit, method = "treebag", 


trControl = ctr]l) 
1000 samples 
16 predictors 
2 classes: 'no', 'yes'! 
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No pre-processing 
Resampling: Cross-Validation (10 fold) 


Summary of sample sizes: 900, 900, 900, 900, 900, 900, 
Resampling results 
Accuracy Kappa Accuracy SD Kappa SD 
0.735 0.33 0.0344 0.0859 
Kappa 值 是 0.33， 说 明 bagging 树 模型 与 我 们 之 前 通过 调整 参数 得 到 的 最 好 的 C5.0 决 
策 树 模型 的 效果 差不多 。 
在 决策 树 的 bagging 方法 之 外 ，caret 添加 包 还 提供 了 更 通用 的 bag () 函数 。 它 对 很 
多 模型 提供 了 可 以 直接 使 用 的 支持 ,而且 通过 一 些 额 外 的 努力 也 可 以 用 于 更 多 类 别 的 模型 。 
bag () 函数 使 用 一 个 控制 对 象 来 配置 bagging 过 程 。 它 需要 指定 3 个 函数 : 一 个 用 来 拟 合 模 
型 、 一 个 用 来 进行 预测 、 一 个 用 来 聚集 投票 结果 。 
例如 ， 要 创建 一 个 基于 bagging 的 支持 向 量 机 (SVM ) 模型 ， 使 用 第 7 章 用 过 的 kernlab 
添加 包 中 的 ksvm() 函数 。bag () 函数 要 求 我 们 提供 用 来 训练 SVM 、 做 预测 和 统计 投票 的 
我 们 不 需要 自己 写 这 些 函 数 ，caret 添加 包 内 置 的 svmBag 列表 对 象 提 供 了 我 们 可 以 
使 用 的 这 3 个 函数 : 


> str(svmBag) 


List Gt 3 
京王 主 七 :Funection (x Yr ws) 
$ pred :function ‘(object, x) 
$ aggregate:function (x, type = "class") 


通过 查看 svmBag$fit 图 数 可 以 发 现 ， 它 只 是 简单 地 调用 了 kernlab 添加 包 中 的 
ksvm() 因数 : 
> svmBags$fit 


function (x, Y, ...) 


{ 
library (kernlab) 
out <- ksvm(as.matrix(x), y, prob.model = is.factor(y), ...) 
out 


} 


<environment: namespace:caret> 
svmBag 中 的 pred 和 aggregate 困 数 也 是 类 似 的 直接 方式 。 通 过 学 习 这 几 个 函数 ， 
然后 使 用 相同 的 格式 来 创建 自己 的 函数 ， 可 以 使 用 bagging 来 实现 任意 的 机 器 学 习 算法 。 


» caret 添加 包 中 还 包括 朴素 贝 叶 斯 模型 (nbBag)、 决 策 树 ( ctreeBag) 
和 神经 网 络 (nnetBag) 的 例子 。 


应 用 svmBag 中 的 这 3 个 函数 ， 可 以 创建 一 个 bagging 控制 对 象 : 
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> bagctrl <- bagControl (fit = svmBags$fit, 
predict = svmBag$pred, 
aggregate = svmBag$aggregate) 


通过 使 用 我 们 之 前 定义 的 train() 函数 和 训练 控制 对 象 ctrl1， 可 以 计算 bagging 的 支 
持 向 量 机 模型 ， 如 下 所 示 。 注 意 执行 这 些 代 码 需 要 kernlab 添加 包 。 如 果 之 前 没有 安装 ， 
就 需要 先 安 装 它 。 


> set.seed(300) 
> svmbag <- train(default ~ ., data = credit, "bag", 
trControl = ctrl, bagControl = bagctrl) 
> svmbag 
1000 samples 
16 predictors 
2 classes: 'no', 'yes'! 


No pre-processing 
Resampling: Cross-Validation (10 fold) 
Summary of sample sizes: 900, 900, 900, 900, 900, 900, 


Resampling results 


Accuracy Kappa Accuracy SD Kappa SD 
0.728 0.293 0.0444 0'.132 


Tuning parameter 'vars' was held constant at a value of 35 


Kappa 值 小 于 0.3， 看 上 去 bagging 的 支持 向 量 机 模型 的 性 能 不 如 决策 树 模型 。 值 得 指出 来 
的 是 ，Kappa 统计 量 的 标准 差 (标记 为 kappa sD) 比 bagging 决策 树 大 很 多 。 这 说 明 性 能 随 着 
不 同 的 折 会 发 生 很 大 的 改变 。 这 种 变化 说 明 如 果 增 加 集成 学 习 模 型 的 数目 ， 性 能 会 有 所 提高 。 


11.2.3 boosting 
另 一 种 基于 集成 学 习 的 受 欢 迎 的 方法 是 boosting， 因 为 它 增 加 弱 学 习 器 的 性 能 来 获得 ? 
学 习 咒 的 性 能 。 这 种 方法 主要 基于 Rob Schapire 和 Yoav Freund 的 大 量 工作 ， 他 们 发 表 了 很 
多 关于 这 个 主题 的 文章 。 
. 关于 boosting 的 更 多 信息 ， 请 参考 Boosting - Foundations and Algorithms 
~ Understanding Rule Learners by R. Schapire, and Y. Freund, (The MIT Press, 
2012)。 


对 于 很 多 分 类 器 ， 每 一 个 的 错误 率 都 小 于 50%。Schapire 和 Freund 发 现 ，boosting 的 结 
果 经 常 相当 好 ， 至 少 不 亚 于 它们 当中 最 好 的 模型 。 实 质 上 ， 它 可 以 通过 简单 地 添加 更 多 弱 学 
习 央 的 方式 来 将 性 能 提升 到 任意 的 阔 值 。 因 为 这 个 发 现 有 如 此 明显 的 作用 ， 所 以 boosting 方 
法 被 认为 是 机 器 学 习 领 域 最 重要 的 发 现 之 一 - 
类 似 于 bagging，boosting 也 是 使 用 在 不 同 的 重 抽样 数据 中 训练 模型 的 集成 学 习 ， 通 过 投 
票 来 决定 最 终 的 预测 值 。 最 关键 的 差异 在 于 boosting 中 的 重 抽样 数据 集 是 专门 构建 用 来 产生 
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互补 的 模型 ， 而 且 所 有 的 选票 并 不 是 同等 重要 ， 会 根据 性 能 进行 加 权 .: 

boosting 的 算法 称 为 AdaBoost 或 者 自 适应 boosting， 于 1997 年 提出 。 该 算法 产生 弱 分 
类 器 来 迭代 地 学 习 训 练 集中 很 大 比例 的 难以 分 类 的 样本 ， 对 经 常 分 错 的 样本 进行 更 多 的 关注 
(也 就 是 说 给 予 更 大 的 权重 )。 

从 未 加 权 的 数据 开始 ， 第 一 个 分 类 器 尝试 对 结果 建 模 。 预 测 正 确 的 样本 出 现在 下 一 个 分 
类 器 的 训练 集中 的 可 能 性 比较 小 ， 相 反 地 ， 难 以 分 类 的 样本 将 会 出 现 得 更 频繁 。 当 下 一 轮 的 
弱 分 类 器 被 添加 后 ， 它 们 用 来 训练 后 面 更 难 的 样本 。 该 过 程 会 持续 进行 ， 直 到 达到 要 求 的 总 
误差 或 者 性 能 不 再 提高 。 这 时 ， 每 个 分 类 器 的 票数 会 按照 它们 在 建 模 数据 集 上 的 准确 度 进 行 
加 权 。 

虽然 boosting 的 原理 可 以 用 于 几乎 任何 模型 ， 但 是 它 在 决策 树 中 用 得 更 多 。 我 们 已 经 在 
第 5 章 使 用 过 这 种 方式 ， 用 来 提升 C5.0 决策 树 的 性 能 。 

AdaBoost.M1 算法 提供 了 AdaBoost 另 一 种 基于 树 的 实现 。 因 为 它 与 我 们 之 前 创建 的 
boosting 树 比 较 类 似 ， 所 以 我 们 这 里 不 进行 介绍 。 


AdaBoost.M1 算法 可 以 在 adabag 添加 包 中 找到 ， 更 多 信息 可 以 参考 : adabag 一 
LN 
RS ~ an R package for classification with boosting and bagging, Journal of Statistical 
Software, Vol 54(2), pp. 1-35, by E. Alfaro, M. Gamez, and N. Garcia (2013), 


11.2.4 ”随机 森林 
另 一 种 基于 集成 学 习 的 方法 称 为 随机 森林 (或 者 决策 树 森 林 )， 它 只 关注 决策 树 的 集成 学 
习 。 该 方法 由 Leo Breiman 和 Adele Cutler 提出 ,将 bagging 和 随机 特征 选择 结合 起 来 ， 对 决 
策 树 模 型 添加 额外 的 多 样 性 。 在 树 的 集成 (森林) 产生 之 后 ， 该 模型 使 用 投票 的 方法 来 组 合 
WA 关于 如 何 构建 随机 森林 的 更 详细 的 信息 ， 请 参考 ;: Random forests, Machine 
~ Learning, Vol. 45, pp. 5-32,by L. Breiman (2001)。 


随机 森林 将 全 能 型 和 很 强 的 能 力 结合 到 单一 的 机 器 学 习 方 法 中 。 因 为 集成 学 习 只 需要 使 
用 全 体 特 征集 中 的 一 个 很 小 的 随机 部 分 ， 所 以 随机 和 森林 可 以 处 理 非常 大 量 的 数据 ， 而 大 数据 
中 所 谓 的 “ 维 数 灾难 ”常常 会 让 其 他 的 模型 失败 。 与 此 同时 ， 它 对 于 大 多 数 模 型 的 误差 率 和 
任何 其 他 方法 处 于 同等 的 水 平 。 
虽然 随机 森林 的 名 称 是 Breiman 和 Cutler 起 的 专用 术语 ( 详 见 http://www. 
~ 上、 stat.berkeley.edu/~breiman/RandomForests/)， 但 该 名 词 有 时 候 会 用 作 任 意 类 型 
的 决策 树 集成 的 口语 化 表达 。 学 究 会 使 用 更 通用 的 术语 “决策 树 森 林 ”， 除 
非特 指 Breiman 和 Cutler 的 算法 。 


下 表 列 出 了 随机 森林 模型 优点 和 和 缺点。 值得 注意 的 是 ， 相 对 于 其 他 基于 集成 学 习 方 法 ， 
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随机 森林 非常 有 竞争 力 而 且 在 竞赛 中 具有 核心 优势 。 例 如 ， 随 机 森林 更 易于 使 用 ， 并 且 具 有 
更 少 的 过 拟 合 倾向 。 
优点 缺点 
e 对 于 大 多 数 问题 都 很 有 效 的 通用 模型 e 与 决策 树 不 同 ， 该 模型 不 容易 解释 
e 可 以 处 理 噪 声 和 人 缺失 值 ; 分 类 和 连续 的 特征 se 可 能 需要 费 工 夫 使 得 模型 符合 数据 
e 只 选择 最 重要 的 特征 
e 可 以 适用 于 特征 数目 或 者 样本 量 极 大 的 情况 
由 于 它们 的 能 力 、 多 功能 性 和 容易 使 用 ， 随 机 森林 很 快 成 最 受 欢迎 的 机 琐 学 习 算法 之 
一 。 在 本 章 的 后 面部 分 ， 我们 将 随机 森林 与 boosting C5.0 决策 树 进行 一 对 一 的 比较 。 
1. 训练 随机 森林 
虽然 R 中 有 好 几 个 可 以 创建 随机 森林 的 添加 包 ， 但 randomForest 添加 包 可 能 是 最 忠 


实 于 Breiman 和 Cutler 原创 的 添加 包 。 还 有 一 个 额外 的 好 处 是 得 到 了 caret 添加 包 中 自动 参 
数 调 整 的 支持 。 训 练 该 模型 的 语法 如 下 所 示 : 



















随机 森林 语法 7 0 
使 用 randomForest 添加 包 中 的 randomForest () 函数 
创建 分 类 器 : 
m <- randomForest (train, class, ntree = 500, mtry = sqrt (p)) 


e train 是 包含 训练 数据 集 的 数据 框 

e class 是 一 个 因子 向 量 ， 代表 训练 集中 每 一 行 的 类 别 

e ntree 是 一 个 整数 ， 指 定 树 的 数目 

e mtry 是 一 个 可 选 的 整数 ， 代 表 每 次 划分 中 随机 选择 的 特征 (变量 ) 的 数目 (默认 是 sqrt (P) ， 其 中 p 是 
数据 中 总 的 变量 数 ) 

该 函数 将 返回 一 个 随机 森林 对 象 ， 可 以 用 来 进行 预测 。 

进行 预测 : 

p <- predict (m, test, type = "response') 

e m 是 randomForest 函数 训练 的 模型 

e test 是 包含 测试 集 的 数据 框 ， 与 训练 集 数据 的 结构 相同 

e@ type 可 以 是 "response"、"prob" 或 者 "votes" 中 的 一 个 ， 分 别 表示 输出 的 预测 向 量 是 否 是 预测 类 
别 、 预 测 概率 或 者 投票 数 的 矩阵 。 

该 函数 按照 type 参数 的 类 型 返回 预测 值 。 

例子 : 


credit model <- randomForest (credit train, loan default) 





credit prediction <- predict (credit model, 


之 前 提示 过 ， 默 认 情 况 下 ，randomForest () 国 数 创建 一 个 500 棵 树 的 集合 ， 每 一 个 
划分 包含 sqrt (P) 个 随机 特征 (p 是 训练 数据 集中 特征 的 个 数 )。 这 些 参数 是 否 合适 取决 于 
学 习 任 务 和 训练 数据 的 本 质 。 一 般 来 说 ， 更 复杂 的 问题 和 大 量 的 数据 (特征 数 和 样本 数 都 很 
大 ) 使 用 大 数量 的 树 效果 会 更 好 。 

使 用 大 数量 的 树 的 目的 是 使 得 每 一 个 特征 都 有 机 会 在 多 个 模型 中 被 充分 训练 。 它 用 
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mtry 表示 ， 是 sqrt (p) 默认 值 的 基础 。 使 用 这 个 值 可 以 对 特征 进行 充分 的 限定 ， 从 而 使 
树 与 树 之 间 发 生 大 量 的 随机 变化 。 例 如 ， 因 为 信用 数据 (credit data) 包含 16 个 特征， 所 以 每 
棵 树 在 任何 时 候 被 限定 在 sqrt (16) =4 个 特征 上 。 

让 我 们 看 看 默认 的 randomForest () 参数 如 何 作用 于 信用 数据 。 我 们 将 使 用 与 其 他 学 
习 器 相同 的 方式 来 训练 模型 (函数 set . seed 确保 结果 可 重复 )。 


> library (randomForest) 
> set.seed(300) 


> rf <- randomForest (default ~ ., data = credit) 
我 们 可 以 很 简单 地 键入 结果 对 象 的 名 称 来 查看 模型 性 能 的 汇总 : 
5 EE 
Call: 
randomForest (formula = default ~ ., data = credit) 


Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 4 


OOB estimate of error rate: 23.8% 
Confusion matrix: 
no yes class.error 
no 640 60 0.08571429 
Yes 178 122 0.59333333 


正如 期 望 的 一 样 ， 输 出 显示 该 随机 森林 包含 500 棵 树 ， 对 每 个 划分 使 用 了 4 个 变量 。 通 
过 显示 的 混 活 和 矩阵 你 可 能 会 被 看 上 去 很 差 的 重 代入 误差 吓 一 跳 一 一 23.8% 的 错误 率 比 起 目前 
我 们 见 过 的 任何 集成 学 习 方法 都 差 。 事 实 上 ,这 个 混 清 矩阵 根本 不 是 重 代入 误差 。 它 其 实 代 
表 出 包 错误 率 (out-ofbag error rate, 标记 为 00B 估计 错误 率 )， 它 是 对 测试 集合 错误 的 一 个 无 
偏 估计 。 它 表示 对 未 来 性 能 的 一 个 合理 估计 。 

对 “出 包 ”(out-of-bag) 估计 是 在 构建 随机 森林 时 计算 的 。 实 质 上 ， 任 何 没 有 选择 的 某 棵 
树 的 自助 法 抽样 中 的 样本 都 可 以 用 来 测试 模型 对 未 知 数据 的 性 能 。 在 森林 构建 结束 时 ， 每 个 
样本 每 次 的 预测 值 会 被 记录 ， 通 过 投票 来 决定 该 样本 最 终 的 预测 值 。 这 种 预测 的 总 错误 率 就 
成 了 “出 包 ” 错 误 率 。 


2. 评估 随机 森林 的 性 能 


之 前 提 到 过 ，randomForest () 函数 也 得 到 了 caret 添加 包 的 支持 ， 它 允许 在 优化 
模型 的 同时 计算 “出 包 ” 错 误 率 之 外 的 性 能 度量 指标 。 为 了 让 事情 更 有 趣 ， 我 们 比较 自动 调 
节 参 数 的 随机 森林 和 之 前 做 过 的 自动 调节 参数 的 boosting C5.0 决策 树 模型 。 我 们 假设 这 个 实 
验 的 目的 是 为 了 找 出 一 个 候选 模型 ， 然 后 提交 到 一 个 机 器 学 习 的 竞赛 中 。 

首先 加 载 caret 添加 包 并 设置 训练 控制 选项 。 为 了 对 模型 性 能 进行 最 精确 的 比较 ， 使 
用 重复 10 折 交 叉 验 证 : 10 次 10 折 交 叉 验 证 。 这 意味 着 模型 会 花费 更 多 的 时 间 和 更 大 的 计算 
量 。 因 为 这 是 最 后 一 个 比较 ， 所 以 我 们 非常 肯定 我 们 做 了 正确 的 选择 一 一 最 后 关头 的 胜利 者 
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将 会 作为 我 们 唯一 的 输入 提交 给 机 器 学 习 竞 赛 - 


> library (caret) 
> ctrl <- trainControl (method 
number 


其 人 次， 我们 对 随机 森林 设置 参数 调整 网 格 。 该 模型 中 唯一 需要 调整 的 参数 是 mtzy， 它 
表示 每 一 次 划分 中 要 随机 选择 多 少 个 特征 。 我 们 知道 默认 是 使 用 sqrt (16) =4 个 特征 。 为 
了 更 彻底 ， 我 们 测试 该 数 的 一 半 、 两 倍 以 及 所 有 的 特征 。 因 此 ， 我 们 需要 创建 一 个 值 为 2 .4、 
8、16 的 网 格 : 


> grid rf <- expand.grid(.mtry = c(2, 4, 8, 16)) 


"repeatedcv'", 
10, repeats = 10) 


a 当 随 机 森林 在 每 一 次 划分 中 用 到 所 有 特征 时 ， 实 际 上 它 与 bagging 决策 树 是 
一 样 的 。 


我 们 可 以 把 结果 的 网 格 对 象 与 ctz1 对 象 一 起 传送 给 train() 困 数 。 我 们 使 用 Kappa 
值 来 选择 最 好 的 模型 。 


> set.seed(300) 
> mrf <- train(default ~ ., data = credit, method = "rf", 
metric = "Kappa'", tt 上 zcContzol = ctrl, 
tuneGrid = grid rf) 
之 前 的 命令 可 能 会 花费 很 多 时 间 ， 因 为 它 要 做 很 多 工作 ! 当 它 结束 后 ， 我 们 使 用 10、 
20、30、40 次 迭代 来 与 boosting 树 进行 比较 : 
> grid c50 <- expand.grid(.model = "tree", 
“trials 二 elL0r 0 2305 40) > 
.Winnow = "FALSE") 
> set.seed(300) 
> m c50 <- train(default ~ ., data = credit, method = "C5.0", 


metrie 三 Kappa trControl = Ru 
tuneGrid = grid c50) 


当 C5.0 决策 树 也 计算 完成 后 ,我 们 可 以 一 项 一 项 地 比较 两 种 方法 的 差异 。 随 机 森林 模 
型 的 结果 如 下 : 


> mm rE 
Resampling results across tuning parameters: 


mtry Accuracy Kappa Accuracy SD Kappa SD 


2 0.725 0.128 0.0169 0.0636 
4 0.75 0.293 0.0299 0.0877 
8 0.754 0.338 0.0311 0.0835 
16 0.756 0.361 0.0338 0.0889 


Boosting C5.0 模型 的 结果 如 下 : 


>m cs50 
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Resampling results across tuning parameters: 


trials Accuracy Kappa Accuracy SD Kappa SD 


10 0.732 0.322 0.0402 0.0952 
20 0.734 0.327 0.0403 0-0971 
30 0.738 0.334 0.0367 0.0894 
40 0..739 0.334 0.0393 0..0975 


Kappa 值 为 0.361，mtry=16 时 的 随机 森林 模型 成 了 这 8 个 模型 中 的 赢家 。 它 比 最 好 
的 C5.0 决策 树 模型 要 稍微 好 一 些 ，Kappa 值 是 0.334。 基 于 这 些 结果 ， 我 们 将 随机 森林 作 
为 我 们 最 终 的 模型 提交 上 去 。 在 没有 通过 竞赛 数据 进行 真实 评估 的 情况 下 ， 我 们 没 办 法 确定 
它 最 终 是 否 会 赢 。 但 是 根据 我 们 的 性 能 估计 ， 这 是 个 安全 的 选择 。 如 果 足 够 走运 的 话 ， 我 们 


可 能 会 赢得 奖金 。 


11.3 总 结 


在 读 完 这 一 章 后 ， 你 现在 已 经 知道 了 可 以 帮 得 数据 挖掘 或 者 机 器 学 习 竞赛 奖金 的 基本 技 
术 。 自 动 调节 参数 的 方法 可 以 帮助 我 们 对 单一 模型 尽 可 能 地 进行 优化 。 另 一 方面 ， 创 建 一 个 
机 带 学 习 模 型 的 组 ， 让 它们 一 起 工作 ， 也 能 获得 性 能 的 提高 。 

虽然 本 章 的 目的 是 让 你 准备 足够 参加 竞赛 的 模型 ， 但 是 要 记 住 你 的 对 手 也 能 得 到 相同 的 
技术 。 你 不 能 停滞 不 前 ， 你 需要 不 断 努 力 ， 在 你 的 技能 集 上 不 断 增添 新 的 方法 。 你 可 以 将 领 
域 的 专门 知识 引入 进来 ， 或 者 你 的 强项 在 于 数据 准备 时 对 数据 深入 观察 。 任 何 情况 下 ,实践 
带 来 完美 ， 所 以 要 尽 可 能 地 利用 各 种 公开 的 苋 赛 来 测试 、 评 估 和 提高 自己 在 机 咒 学 习 方面 的 
技能 集 。 

在 下 一 章 中 (本 书 的 最 后 一 章 )， 我 们 将 使 用 R 将 机 器 学 习 方 法 应 用 到 一 些 高 度 专业 化 和 
困难 的 领域 进行 鸟 殉 。 你 将 学 到 将 机 器 学 习 应 用 到 前 沿 领域 的 知识 。 
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你 有 可 能 已 经 这 么 





现在 ， 你 可 能 迫不及待 想 要 把 机 器 学 习 应 用 到 你 自己 的 项 目 中 去 
做 了 。 如 果 你 已 经 在 自己 的 项 目 上 尝试 过 机 器 学 习 方法 ， 你 可 能 会 发 现 ， 把 数据 变 成 实 
比 本 书 所 呈现 得 更 难 。 

当 你 试图 收集 数据 时 ， 你 可 能 意识 到 信息 可 能 以 专 有 电子 表格 格式 或 者 以 多 个 网 络 页 面 
的 格式 存在 。 让 事情 变 得 更 糟 的 是 ， 在 花费 了 几 小 时 手工 重新 编排 数据 格式 以 后 ， 计 算 机 的 
内 存 可 能 已 经 用 完 ， 并 且慢 得 动 不 了 了 。 甚至 R 可 能 崩溃 或 者 冻结 你 的 机 器 。 希 望 你 不 会 被 
这 些 吓 住 。 随 着 经 验 的 增长 ， 这 些 问题 会 慢 慢 变 得 容易 处 理 。 

本 章 涵盖 了 一些 并 不 是 所 有 机 器 学 习 项 目 中 都 会 应 用 到 的 技术 ， 但 是 可 以 证 明 这 些 技术 
对 某 些 类 型 的 工作 还 是 有 用 的 。 你 可 能 会 发 现 ， 在 你 应 用 如 下 一 些 特征 数据 时 ， 这 些 技术 是 
特别 有 用 的 ; 

口 存储 为 无 结构 或 者 专 有 格式 的 数据 ， 比 如 网 页 、 网 页 API 或 者 电子 表格 。 

口 从 生物 信息 学 或 者 社交 网 络 分 析 等 这 些 有 额外 挑战 领域 得 到 的 数据 。 

口 数据 集 大 到 R 不 能 将 它 存储 在 内 存 中 ， 或 者 机 器 学 习 需 要 花费 很 长 的 时 间 来 完成 。 

如 果 你 碰 到 这 些 问题 ， 其 实 你 并 不 是 个 例 。 尽 管 没 有 万 能 药 (这 些 问题 是 数据 科学 家 的 
难题 ， 同 时 这 也 是 对 数据 技术 有 大 量 需 求 的 原因 ) 但 通过 R 社区 的 无 私 奉献 ， 为 解决 这 类 问 
题 的 一 系列 R 添加 包 提供 了 一 种 领先 的 方案 。 

本 章 提供 了 这 类 问题 解决 方案 的 一 个 简介 。 即 使 你 是 一 个 有 经 验 的 RR 语言 老手 ， 你 也 可 
能 发 现 其 中 的 某 个 添加 包 能 简化 你 的 工作 流程 ， 或 许 未 来 有 一 天 你 能 开发 一 个 简化 所 有 人 工 
作 的 添加 包 。 
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12.1 分 析 专 用 数据 


与 本 书 所 分 析 的 数据 不 同 ， 真 实 世 界 的 数据 罕有 打包 为 一 个 简单 的 能 从 网 站 上 下 载 
的 CSV 格式。 真实 的 情况 是 ， 需要 花费 大 量 的 工夫 去 分 析 准 备 数 据 。 数 据 需 要 收集 、 合 
并 、 挑 选 、 过 滤 或 者 重新 格式 化 来 满足 学 习 算 法 的 要 求 。 这 个 过 程 俗称 为 数据 再 加 工 (data 
munging)。 当 特定 的 数据 集 从 百 兆 字 节 增长 到 千 兆 字 节 ， 数 据 的 来 源 是 不 相关 且 凌 乱 的 ， 并 
且 很 多 都 是 从 特殊 领域 的 来 源 收集 而 来 时 ， 再 加 工 变 得 更 加 重要 。 下 面 的 几 节 将 介绍 几 个 可 
以 用 在 专用 的 或 者 特殊 领域 数据 的 添加 包 。 


12.1.1 用 RCurl 添加 包 从 网 上 获取 数据 

Duncan Temple Lang 开发 的 RCurl 添加 包 为 curl 功能 ( client for URL) 提供 了 一 个 R 
接口 ， 一 个 在 网 络 上 传递 数据 的 命令 行 工 具 。curl 功能 在 Web 数据 抓 取 上 很 有 用 ， 抓 取 是 指 
从 网 站 上 收集 数据 并 且 把 它们 转变 成 结构 化 数据 。 


Cc 


CW ”RCurl 添加 包 的 资料 可 以 在 网 站 http://www.omegahat.org/RCurl/ 上 获得 . 


在 安装 RCurl 添加 包 以 后 ， 下 载 一 个 页 面 只 需要 输入 一 个 简单 的 命令 : 


> library (RCur1) 
> webpage <- getURL("http://www.packtpub.com/") 


这 将 把 Packt 出 版 社 主页 上 的 全 文 (包括 所 有 网 页 的 标签 ) 保存 为 一 个 名 称 为 webpage 
的 尺 字符 对 象 。 如 下 面 命 令 行 所 示 ， 尽 管 这 样 并 不 是 很 有 用 : 
> str (webpage) 
chr "<!DOCTYPE html>\n<html xmlns=\"http://www.w3.org/1999/xhtml\" 


lang=\"en\" xml:lang=\"en\" >\n<head>\n <title>Home | Packt Pu"| 
truncated __ 


因为 大 多 数 的 网 页 应 用 特有 的 网 页 格式 (例如 ,XML/HTML 和 JSON 格式 )， 所 以 网 页 
数据 在 应 用 到 R 中 之 前 需要 进行 预 处 理 。 下 面 的 几 节 中 将 讨论 两 个 可 以 完成 该 任务 的 函数 。 


12.1.2 ”用 XML 添加 包 读 / 写 XML 格式 数据 
XML 是 可 读 的 纯 文 本 文档 ， 但 是 很 多 文档 格式 是 基于 结构 化 的 通用 标记 语言 。 尤其 是 ， 
很 多 基于 网 络 的 文档 使 用 XML 格式 。XML 添加 包 是 为 读 / 写 XML 文档 在 流行 的 基于 C 的 
1ibxm12 解析 器 基础 上 上， 提供 了 一 组 功能 ， 它 是 由 Duncan Temple Lang 开发 的 。 与 (前 面 
提 及 的 ) Rcurl 添加 包 结 合 在 一 起 ， 就 可 能 直接 从 网 络 上 下 载 并 且 处 理 文档 。 
LA 更 多 的 关于 XML 添加 包 的 信息 ， 包 括 让 你 上 手 更 快 的 简单 实例 ， 可 以 在 网 
”站 : http://www.omegahat.org/RSXML/ 上 找到 。 
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12.1.3 用 zjson 添加 包 读 / 写 JSON 

Alex Couture-Beil 开发 的 rjson 添加 包 可 以 用 来 读 / 写 JSON (JavaScript Object Notation 
格式 的 文件 。JSON 是 一 种 标准 的 纯 文 本 格式 ,很 多 时 候 用 作 网 页 上 的 数据 结构 或 对 象 。 由 
于 这 种 格式 在 创建 网 页 应 用 上 的 实用 性 ， 所 以 变 得 很 流行 。 但 是 尽管 其 名 字 是 这 样 的 ， 但 它 
的 作用 并 不 限于 网 页 浏览 。 


全 


> 要 想 进一步 了 解 JSON 格式 ， 请 访问 : http://www.json.org/。 


JSON 格式 用 纯 文 本 字符 存储 对 象 。 在 安装 了 rjson 添加 包 以 后 ， 把 JSON 对 象 转换 成 
R 对 象 : 
> library (rjson) 


> r_object <- fromJSON (json string) 

要 想 把 R 对 象 转换 成 一 个 JSON 对 象 : 

> json string <- toJSON(r object) 

使 用 Rcurl 添加 包 (前 面 提 及 的 )， 可 以 用 直接 应 用 来 源 于 很 多 在 线 数据 库 的 JSON 数 
据 来 编写 R 程序 。 


12.1.4 用 xlsx 添加 包 读 / 写 Microsoft Excel 电子 表格 


Adrian A.Dragulescu 的 xlsx 添 加 包 提 供 了 读 / 写 Excel 2007 (或 者 更 早 版 本 ) 格式 
的 电子 表格 的 功能 一 一 这 种 电子 表格 广泛 用 于 很 多 商业 环境 。 这 个 添加 包 基 于 用 来 读 / 写 
Microsoft 文档 的 Apache POI Java API。 


L&E 要 想 获 得 关于 xlsx 添加 包 的 更 多 信息 ， 包 括 一 个 快速 入 门 文 档 ， 请 参阅 : 
%、 





~ https://code.google.com/p/rexcel/, 


12.1.5 ”生物 信息 学 数据 

由 于 基因 数据 具有 独特 的 性 质 ， 所 以 生物 信息 学 领域 的 数据 分 析 给 出 了 不 同 于 其 他 领域 
的 一 系列 挑战 。DNA 和 蛋白质 微 阵列 的 使 用 导致 数据 集 的 宽度 要 大 于 其 自身 的 长 度 ( 即 特征 
的 数量 超过 案例 数量 )。 当 试图 在 这 类 数据 上 应 用 传统 的 可 视 化 、 统 计 检 验 和 机 器 学 习 方 法 
时 ， 就 会 产生 问题 。 

& 基因 统计 或 者 生物 信息 学 方面 的 CRAN 任务 视图 可 以 在 网 址 : http://cran.r- 

~ project.org/web/views/Genetics.html 获得 。 

西雅图 的 Fred Hutchinson 癌症 研究 中 心 的 Bioconductor 项 目 ( http://www.bioconductor. 
org/) 为 分 析 基 因数 据 提供 了 一 个 集中 化 的 方法 集合 。 该 项 目 以 R 语 言 为 基础 ， 添 加 了 特别 
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针对 生物 信息 学 方面 的 添加 包 和 文档 。 

Bioconductor 项 目 提供 了 分 析 来 源 于 通用 平台 的 微 阵列 数据 的 工作 流程 ， 例 如 来 源 于 
Affymetrix、lllumina、Nimblegen 和 Agilent 等 的 微 阵列 数据 。 同 时 ， 它 还 提供 了 序列 注释 、 
多 重 检 验 法 、 专 业 的 可 视 化 和 很 多 其 他 的 功能 。 


12.1.6 ”社交 网 络 数 据 和 图 数据 

社交 网 络 数 据 和 图 数据 有 很 多 挑战 。 这 些 数据 记录 了 人 或 者 对 象 之 间 的 关系 或 者 链接 。 
如 果 有 NN 个 人 ， 就 有 可 能 给 出 一 个 Nx NN 的 链接 和 矩阵 ， 随 着 人 数 的 增加 ， 它 会 变 得 非常 复 
杂 。 用 统计 学 方法 和 可 视 化 方法 来 分 析 该 网 络 ， 以 便 寻 找 有 意义 的 关系 模式 。 





由 Carter T, Butts 、David Hunter 和 Mark S 开发 的 network 添加 包 为 处 理 这 类 网 络 提供 
了 一 种 特殊 的 数据 结构 。 一 个 密切 相关 的 添加 包 sna， 也 可 以 用 来 分 析 和 可 视 化 network 
对 象 。 


要 想 了 解 更 多 关于 network 和 sna 的 信息 ， 请 参考 华盛顿 大 学 的 项 目 网 站 : 
~ http://www.statnet.org/, 


12.2 ”提高 R 语言 的 性 能 


R 语言 有 越 变 越 慢 和 内 存 使 用 效率 低下 的 名 声 ， 至 少 在 某 些 方面 这 是 名 符 其 实 的 。 现 代 
计算 机 在 处 理 几 千 个 记录 的 数据 集 时 ， 这 种 缺陷 很 大 程度 上 是 不 被 觉察 的 ， 但 是 100 万 或 者 
更 多 记录 的 数据 集 则 可 能 超出 现在 消费 级 别 计算 机 硬件 的 承受 极限 。 当 数据 有 很 多 的 属性 或 
者 用 到 了 复杂 的 学 习 算 法 时 ， 这 个 问题 会 变 得 更 糟 。 

LE CRAN 有 一 个 高 性 能 计算 任务 视图 ， 它 列 出 了 能 够 突破 及 语言 所 能 完成 极 

X 一 限 的 添加 包 : http://cran.r-project.org/web/views/HighPerformanceComputing.html。 
扩展 R 语言 基本 添加 包 以 使 突破 其 基础 包 能 力 的 添加 包 正 在 被 迅速 开发 。 这 个 工作 主要 
从 两 方面 来 实现 : 有 些 添加 包 通 过 让 数据 运算 得 更 快 或 者 允许 数据 容量 超过 可 用 系统 内 存 的 
大 小 ， 从 而 增加 处 理 极 大 数据 集 的 能 力 ; 其 他 的 可 能 是 通过 应 用 特殊 的 计算 机 硬件 ， 或 者 通 
过 提供 对 大 数据 问题 进行 优化 的 机 器 学 习 算 法 ， 把 工作 分 配 到 额外 的 计算 机 或 者 处 理 器 中 ， 
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从 而 让 R 语言 运行 得 更 快 。 下 面 列 出 了 其 中 的 一 些 添 加 包 。 


12.2.1 ”处 理 非常 大 的 数据 集 

非常 大 的 数据 集 有 时 候 能 会 导致 系统 没有 内 存 来 存储 ， 从 而 导致 R 语言 慢 慢 终止 。 即 使 
整个 数据 集 能 放 在 内 存 中 ， 它 也 需要 和 额外 的 内 存 从 磁盘 里 读 取 数据 ， 这 就 需要 整个 内 存 的 大 
小 要 远大 于 数据 集 本 身 。 男 外 ， 除 了 要 处 理 非常 大 的 记录 外 ， 非 常 大 的 数据 会 导致 花费 很 长 
的 时 间 来 处 理 其 他 无 缘 无 故 的 东西 ; 即使 在 执行 了 几 百 万 次 操作 时 ， 也 可 能 会 附加 一 个 短暂 
的 运算 。 

几 年 前 ,很 多 人 建议 在 R 语言 以 外 的 其 他 程序 语言 中 执行 巨大 数据 集 的 数据 准备 ， 然 后 
用 RR 语言 对 一 个 相对 较 小 的 子 集 进行 分 析 。 然 而 ,现在 再 也 不 需要 这 样 做 了 ， 因 为 有 几 个 添 
加 包 有 助 于 R 语言 处 理 这 些 大 数据 问题 。 


1. 用 data .table 添加 包 使 数据 框 运算 得 更 快 

由 Dowle 、Short 和 Lianoglou 开发 的 data .table 添加 包 提 供 了 一 种 数据 框 的 增强 版 
本 ， 叫 做 数据 表 ( data table)。 数 据 表 在 构造 子 集 、 连 接 和 分 组 运算 上 普遍 比 数据 框 更 快 。 然 
而 ， 因 为 它 本 质 上 是 一 个 改进 的 数据 框 ， 所 以 它 的 结果 对 象 能 够 用 到 所 有 接受 数据 框 的 R 函 


NY 数据 表 项 目的 具体 信息 在 下 列 网 址 中 找到 : http://datatable.r-forge.r-project.org/。 


数据 表 结 构 的 一 个 限制 与 数据 框 一 样 ， 它 们 受到 了 可 用 系统 内 存 的 限制 。 下 面 两 小 节 讨 
论 以 牺牲 与 很 多 其 他 R 函数 兼容 性 为 代价 来 战胜 这 个 缺点 的 添加 包 。 


2. 用 ££ 添加 包 构 建 基于 磁盘 的 数据 杠 


由 Daniel Adler、Christian Glaser、Oleg Nenadic 、Jens Oehlschlagel 和 Walter Zucchini 开 
发 的 ££ 添加 包 为 数据 框 (Efdaf) 提供 了 另外 的 选择 ， 它 允许 构建 超过 20 亿 行 的 数据 集 ， 即 
使 这 个 远 远 超过 了 可 用 系统 内 存 的 大 小 。 

ffdf 结构 有 一 个 物理 部 分 (把 数据 以 高 效 的 形式 存储 在 磁盘 上 ) 和 一 个 虚拟 部 分 (与 一 
般 的 R 数据 框 一 样 ， 但 是 明确 指向 存储 在 物理 部 分 的 数据 )。 你 能 够 把 ffaf 对 象 想象 成 一 
张 地 图 ， 指 向 磁盘 上 数据 的 位 置 。 


中 人 fF 项 目的 网 址 : http:// 作 tr-forge.r-project.org/。 


ffdf 数据 结构 的 一 个 缺点 是 ， 它 们 不 能 直接 被 大 多 数 的 R 函数 应 用 。 相 反 ， 数 据 要 被 
处 理 成 小 块 ， 稍 后 将 结果 结合 在 一 起 。 给 数据 分 块 的 优点 是 工作 能 分 配给 多 个 处 理 器 同时 使 
用 并 行 计算 方法 处 理 ， 这 个 在 接 下 来 的 几 节 中 会 提 到 。 
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由 Edwin de Jonge、Jan Wijffels 和 Jan van der Laan 开发 的 ffbase 添加 包 处 理 这 个 问题 
与 用 ff 对 象 提高 基本 的 统计 分 析 性 能 样 。 这 让 直接 用 ff 对 象 探 索 数 据 变 为 可 能 。 


\ 如 人、 ffbase 项 目的 网 址 为 http://github.com/edwindj/ffbase。 





3. 用 bigmemory 添加 包 使 用 大 矩阵 


由 Michael J. Kane 和 John W. Emerson 开发 的 bigmemory 添加 包 人 允许 使 用 超过 可 用 系 
统 内 存 的 极端 大 的 矩阵。 这 个 矩阵 能 存储 在 磁盘 上 或 者 共享 存储 右 中 ， 允 许 它们 用 在 同一 计 
算 机 上 或 者 通过 网 络 的 其 他 进程 中 。 这 促进 了 并 行 计算 方法 ， 如 下 文 提 及 的 那样 。 


NW bigmemory 添加 包 的 资料 可 以 在 http://www.bigmemory.org/ 上 找到 


因为 bigmemory 矩阵 与 数据 框 不 同 ， 所 以 它们 不 能 直接 用 到 本 书 所 提 及 的 大 多 数 机 器 
学习 算 法 中 。 它 们 也 只 能 和 数值 型 数据 一 起 使 用 。 也 就 是 说 ， 因 为 它们 和 典型 的 RR 和 矩阵 类 
似 ， 所 以 很 容易 构建 能 可 以 转化 成 标准 的 R 数据 结构 的 较 小 的 案例 或 者 小 块 。 

上 述 作 者 同时 也 提供 了 bigalgebra、biganalytics 和 bigtabulate 三 个 添加 
包 ， 它 们 使 在 矩阵 上 执行 简单 的 分 析 成 为 可 能 。 特 别 注意 的 是 ,biganalytics 添加 包 中 
的 bigkmeans () 图 数 ， 它 可 以 执行 第 9 章 所 讨论 的 大 均值 聚 类 任务 。 


12.2.2 ”使 用 并 行 处 理 来 加 快 学 习 过 程 


在 早期 的 计算 机 处 理 中 ， 程 序 完全 串 行 的 ， 这 限制 它们 每 一 次 只 能 执行 一 个 任务 。 下 一 
条 指令 只 有 在 上 一 条 指令 完成 的 情况 下 才能 执行 。 然 而 ， 很 多 任务 可 以 通过 让 多 个 工作 同时 
进行 来 更 有 效 地 完成 。 


串 行 计算 : 





| 
EL 





这 个 需求 在 并 行 计算 方法 发 展 起 来 以 后 得 到 了 解决 ， 它 用 一 组 (两 个 或 者 更 多 ) 处 理 顺 
或 者 计算 机 来 解决 一 个 更 大 的 问题 。 很 多 并行 计算 : 
现代 计算 机 就 是 为 并 行 计算 而 设计 的 。 即 
使 在 只 有 一 个 处 理 器 的 情况 下 ， 它 们 也 有 
两 个 或 者 更 多 的 能 并 行 工 作 的 内 核 。 这 使 
得 任务 可 以 一 个 个 独立 地 完成 。 

称 为 群集 (cluster) 的 多 个 计算 机 的 网 
络 ， 也 可 用 于 并 行 计算 。 一 个 大 的 群集 可 
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能 包括 各 种 硬件 ， 并 且 硬 件 之 间 可 以 隔 开 很 长 的 距离 。 在 这 种 情况 下 ， 和 群集 也 能 被 称 为 网 格 
(grid)。 极 端 情况 下 ， 运 行 着 硬件 的 标准 成 百 上 千 个 计算 机 的 群集 或 者 网 格 可 能 是 一 个 非常 强 
大 的 系统 。 

然而 ， 重 点 是 不 是 每 一 个 问题 都 能 被 并 行 处 理 ; 有 些 问题 相对 来 说 更 适合 并 行 处 理 。 你 
可 能 会 想 ， 加 上 了 100 个 处 理 器 后 会 使 相同 时 间 里 完成 的 工作 量 有 100 倍 的 提升 ( 即 执行 时 
间 是 1/100 )， 但 是 这 显然 是 不 可 能 的 。 因 为 要 花费 精力 来 管理 工人 。 工 作 一 开始 必须 要 被 分 
为 不 重 登 的 任务 ， 然 后 将 每 个 工人 的 结果 结合 成 一 个 答案 .。 

所 谓 的 易 并 行 (embarrassingly parallel) 问题 是 理想 化 的 。 这 些 任 务 很 容易 缩减 为 各 个 非 
重 符 的 工作 部 分 ， 并 且 结 果 很 容易 再 次 结合 在 一 起 。 一 个 易 并 行 机 器 学 习 的 例子 是 10 折 交 
又 验证 。 一 旦 决定 了 样本 ，10 个 估计 中 每 一 个 都 是 独立 的 ， 这 意味 着 每 一 个 的 结果 不 会 影响 
其 他 的 结果 。 正 如 你 将 看 到 的 ， 使 用 并 行 计算 后 ， 任 务 运行 速度 会 有 显著 的 提高 。 

1. 度量 运行 时 间 

如 果 无 法 系统 地 度量 节约 了 多 少时 间 ， 那 么 加 快 R 语言 运行 速度 所 花费 的 努力 就 会 被 浪 
费 。 尽管 你 也 能 坐 在 哪里 、 看 着 时 钟 计算 时 间 ， 但 是 一 种 简单 的 解决 方法 是 把 惹 人 厌 的 代码 
都 放 在 system.time() 函数 中 

例如 ， 在 作者 的 笔记 本 电脑 中 ，system.time() 函数 显示 它 花费 了 1.3 秒 来 产生 100 
万 个 随机 数 : 


> system.time (rnorm(1000000)) 
user system elapsed 
0 13 0.00 O43 


这 个 函数 也 可 以 用 来 评价 性 能 改进 了 多 少 ， 它 可 以 用 我 们 已 经 提 过 的 方法 或 者 任何 R 函 
数 来 获得 。 


2. 用 foreach 添加 包 来 处 理 并 行 问题 


Revolution Analytics 公司 的 Steve Weston 开发 的 foreach 添加 包 提 供 了 可 能 是 最 简单 
的 启动 并 行 计算 的 方法 。 尤 其 是 ， 如 果 在 Windows 操作 系统 上 运行 R 语言， 因为 有 些 添加 
包 只 针对 特定 的 平台 。 

这 个 添加 包 的 核心 是 一 个 新 的 foreach 循环 结构 。 如 果 你 用 过 其 他 的 编程 语言 ， 那 你 
可 能 会 很 熟悉 它 。 本质 上 ,， 它 允许 在 一 组 中 的 多 项 上 循环 .不 用 清楚 地 数 出 项 的 数量 。 换 名 
话说 ， 组 中 的 每 项 都 会 用 到 。 


、 除了 foreach 添加 包 外 ，Revolution Analytics 公司 开发 了 高 性 能 的 、 适 合 
Ex Ka ， 
SN > 企业 的 R 项目。 免费 版 本 是 针对 实验 和 学 术 用 途 。 要 想 了 解 更 多 的 信息 ， 
查看 网 站 : http://www.revolutionanalytics.com/。 


如 果 你 认为 R 已 经 提供 了 一 组 在 项 上 循环 的 应 用 函数 (例如 ,apply ()、lapply () 
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和 sapply () 等 ), 那么 你 是 正确 的 。 但 是 ，foreach 循环 有 另 一 个 好 处 : 用 非常 简单 的 句 
法 就 能 完成 并 行 的 循环 迭代 。 

其 姐妹 添加 包 doParallel 为 foreach 添加 包 提 供 了 一 个 并 行 的 后 端 ， 它 利用 
R 语 言 (2.14.0 版 本 及 后 续 版 本 ) 内 置 的 parallel 添 加 包 。parallel 添加 包 包 括 
multicore 添加 包 和 snow 添加 包 两 部 分 ， 这 在 下 面 的 章节 中 描述 。 


3. 用 multicore 添加 包 实 现 一 个 多 重任 务 操作 系统 


Simon Urbanek 的 multicore 添加 包 人 允许 在 一 台 有 多 个 处 理 器 或 者 处 理 内 核 的 计算 机 
上 并 行 处 理 。 因 为 它 利 用 了 操作 系统 的 多 重任 务 处 理 能 力 ， 所 以 它 并 不 是 被 Windows 系统 本 
身 支 持 的 。 一 种 使 用 code 添加 包 的 简单 方法 是 用 mcapple () 函数 ， 它 是 1apply() 函 
数 的 一 个 并 行 版 本 。 


-人 一 
名、 multicore 项 目 发 布 在 http://www.rforge.net/multicore/ 上 . 


4. 用 snow 和 snowfall 添加 包 来 联网 多 个 工作 站 


Luke Tierney 、A. J. Rossini 、Na Li 和 H. Sevcikova 的 snow 添加 包 人 允许 在 多 核 或 多 处 理 
器 的 机 器 以 及 多 台 机 器 的 网 络 上 并 行 处 理 。Jochen Knaus 的 snowfall 添加 包 提 供 了 一 个 比 
snow 更 好 操作 的 接口 。 


区 4 要 想 了 解 更 多 关于 代码 的 信息 ， 包 括 一 个 详细 的 FAQ 和 关于 如 何在 网 络 上 
一 配置 并 行 计算 ， 请 参阅 网 址 : http://www.imbi.uni-freiburg.de/parallel/。 


5. 用 MapReduce 和 Hadoop 添加 包 进 行 并 行 云 计算 


MapReduce 编程 模型 是 由 Google 发 布 的 ， 它 用 于 处 理 在 联网 计算 机 的 大 集群 上 的 数 
据 。MapReduce 把 并 行 编程 定义 为 一 个 两 步 过 程 : 
口 map 步骤 ， 在 这 个 步骤 中 ， 将 问题 分 成 一 个 个 相对 较 小 的 任务 并 分 配给 集群 中 的 计 
算 机 。 
DO reduce 步骤 ， 在 这 个 步骤 中 ， 收 集 各 个 小 块 工作 的 结果 并 且 合 成 为 原始 问题 的 最 终 解 
决 方案 . 
蔡 代 专利 MspReduce 框架 的 一 个 流行 的 开源 选择 是 Apache Hadoop。Hadoop 软件 由 
MapReduce 概念 和 一 个 能 在 计算 机 集群 之 间 存 储 大 量 数据 的 分 布 式 文件 系统 组 成 。 


SR Packt 出 版 社 出 版 了 多 本 关于 Hadoop 的 书 。 要 想 预 览 关 于 这 个 主题 的 书 的 
~ 列表 ， 请 参考 下 面 的 URL: http://www.packtpub.com/books?keys=Hadoop。 


多 个 提供 R 语 言 到 Hadoop 接口 的 R 项 目 正在 开发 。 其 中 一 个 是 Saptarshi Guha 的 
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RHIPE 添加 包 ， 它 解决 R 和 Hadoop 之 间 的 通信 试图 把 分 配 和 再 结合 的 思想 带 到 R 语言 中 。 


二 -CRHTPE 添加 包 暂 时 不 能 在 CRAN 找到 ， 只 能 从 网 络 得 到 的 源码 来 安装 它 ， 
站、、 网 址 为 http:/www.datadr.org。 


Revolution Analytics 公司 的 RHadoop 项 目 提供 了 一 个 到 Hadoop 的 接口 。 这 个 项 目 提供 
了 一 个 rmr 添加 包 ， 目 的 是 作为 R 开发 者 写 MapReduce 程序 的 简单 途径 。 男 外 ，RHadoop 
添加 包 提供 了 R 函数 来 访问 Hadoop 的 分 布 式 数据 存储 。 


呈 《 到 本 书 出 版 时 ，RHadoop 的 开发 进行 得 非常 迅速 。 要 想 了 解 更 多 这 个 项 目 
~ 的 信息 ， 请 参见 : https://github.com/RevolutionAnalytics/RHadoop/wiki。 


12.2.3 ”GPU 计算 

并 行 处 理 的 另 一 个 选择 是 使 用 计算 机 图 形 处 理 单元 (GPU ) 来 增强 数学 计算 速度 。GPU 
是 在 迅速 把 图 像 展 现 到 计算 机 屏幕 方面 进行 优化 的 专用 处 理 器 。 因 为 计算 机 一 直 需 要 展现 复 
杂 的 3D 图 像 (尤其 是 为 电子 游戏 )， 所 以 很 多 GPU 用 到 了 为 并 行 处 理 设 计 的 硬件 和 极其 有 效 
的 矩阵 和 向 量 计 算 。 一 个 附加 的 优点 是 它们 能 用 来 有 效 地 解决 某 些 类 型 的 数学 问题 。 计 算 机 
处 理 器 可 能 是 16 核 ， 而 一 个 GPU 可 能 有 几 千 个 核 。 

GPU 计算 的 缺点 是 它 需 要 很 多 计算 机 都 没有 的 专用 硬件 。 在 很 多 情况 下 ， 制 造 商 
Nvidia 的 GPU 是 必 不 可 少 的 ， 因 为 他 们 提供 了 一 个 叫做 CUDA ( Complete Unified Device 
Architectue) 的 专利 框架 ， 使 得 GPU 可 以 使 用 普通 的 编程 语言 ， 比 如 C++ 来 编程 。 








[HH 
LL 
LT EL ELIE.LILEL 

有 16 个 核 的 CPU 有 1000 个 以 上 核 的 GPU 
LE 要 想 了 解 更 多 关于 Nvidia 在 GPU 计算 中 角色 的 信息 ， 请 访问 httpywwwnvidia. 
人 > 一 “comyobjectwhat-is- gpu-computing html。 


由 Josh Buckner、Mark Seligman 和 Justin Wilson 开发 的 gputools 添 加 包 用 Nvidia 
CUDA 工具 箱 实现 了 多 个 R 函数 ， 比 如 ， 和 矩阵 操作 、 聚 类 和 回归 模型 。 这 个 添加 包 要 求 
CUDA 1.3 或 者 更 高 版 本 的 GPU， 并 安装 Nvidia CUDA 工具 箱 。 


12.2.4 ”部 署 最 优 的 学 习 算法 
本 书 所 提 到 的 一 些 机 器 学 习 算 法 能 够 运用 在 极其 大 的 数据 集 上 而 仅 需要 相对 较 小 的 修 
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改 。 例如， 用 前 面 所 提 及 的 一 个 大 数据 添加 包 可 以 直接 实现 朴素 贝 叶 斯 或 者 Apriori 算法 。 
有 些 类 型 的 模型 ， 比 如 集成 学 习 ， 本 身 就 很 适合 于 并 行 化 ， 因 为 每 个 模型 的 工作 可 以 分 配给 
集群 中 的 处 理 器 或 者 计算 机 。 另 一 方面 ， 其 他 一 些 算法 还 是 要 求 对 数据 或 者 算法 进行 很 大 的 
改变 ， 或 者 需要 在 能 用 到 巨大 的 数据 集 前 ， 完 全 重新 考虑 。 

本 节 将 观察 我 们 学 习 至 今 提供 的 最 优 的 学 习 算 法 版 本 的 添加 包 。 


1. 用 biglm 添加 包 建 立 更 大 的 回归 模型 
由 Thomas Lumley 开发 的 biglm 添加 包 为 不 能 适应 内 存 的 大 数据 集 上 训练 回归 模型 提 


个 数据 集 上 运行 传统 的 Im() 函数 得 到 的 结果 相似 。 
biglm() 晒 数 允许 用 SQL 数据 库 来 代替 数据 框 。 模 型 也 能 用 从 前 面 提 到 的 ££ 添加 包 
中 创建 的 数据 对 象 中 得 到 的 小 块 来 训练 。 


2. 用 bigrf 添加 包 建 立 更 大 、 更 快 的 随机 森林 模型 


由 Aloysius Lim 开发 的 bigrf 添加 包 实 现 了 在 特大 数据 集 上 进行 分 类 和 回归 任务 的 随 
机 森林 ， 该 类 数据 集 太 大 因而 无 法 应 用 本 章 前 面 提 到 的 bigmemory 对 象 把 该 数据 集 置 于 内 
存 中 。 这 个 添加 包 也 可 以 用 前 面 提 及 的 foreach 添加 包 来 进行 快速 并 行 处 理 。 树 可 以 并 行 
地 开 枝 散 叶 (在 一 台 计 算 机 或 者 多 台 计 算 机 上 )。 就 像 真正 的 森林 一 样 ， 额 外 的 树 能 随时 被 加 
到 森林 中 或 者 与 其 他 的 森林 合并 。 
ce 要 想 了 解 更 多 的 信息 ， 包 括 例子 和 Windows 安装 指南 ， 请 参见 GitHub 上 的 
一 wiki 添加 包 : https://github.com/aloysius-lim/bigrf; 


3. 用 caret 添加 包 训 练 和 评价 模型 


如 果 在 R 中 注册 过 一 个 并 行 后 端 ， 由 Max Kuhn 开发 的 caret 添加 包 (在 第 10 章 和 第 
11 章 中 广泛 地 提 及 ) 将 透明 地 利用 该 并 行 后 端 ( 例 如 ， 用 前 面 提 及 的 foreach 添加 包 )。 

训练 和 评价 模型 涉及 的 许多 任务 (比如 创建 随机 例子 和 为 10 折 交 叉 验 证 重复 地 检验 预 
测 ) 都 是 高 度 平行 的 。 这 将 建立 一 个 特别 好 的 caret 。 


& 4 ”关于 使 用 caret 添加 包 进 行 并 行 处 理 、 性 能 提升 的 配置 说 明和 一 个 学 习 案 例 ， 
可 以 在 如 下 项 目 网 址 中 得 到 : http://caret.r-forge.r-project.org/parallel.html。 


12.3 总 结 
人 研究 机 器 学 习 无 疑 是 令 人 兴奋 的 。 在 并 行 和 分 布 式 计算 这 一 相对 前 沿 方向 上 的 工作 ， 给 
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出 了 探索 大 数据 中 未 知 知识 的 巨大 潜能 。 迅 速 增长 的 数据 科学 社区 被 免费 和 开源 的 语言 所 
促进 ， 这 为 人 们 接触 R 语言 提供 了 一 个 很 低 的 门槛 一 一 你 只 要 愿意 学 习 。 

本 书 所 介绍 的 内 容 为 你 理解 更 多 高 级 机 器 学 习 方 法 黄 定 了 基础 。 现 在 是 你 的 任务 ， 继 
续 学 习 并 且 为 你 的 知识 工厂 增加 供给 。 沿 途 要 记得 “天 下 没有 免费 午餐 ”理论 一 一 没有 一 个 
机 器 学 习 模 型 是 可 以 适用 于 所 有 数据 集 的 。 机 器 学 习 上 总 有 人 为 的 因素 ， 我 们 要 增加 学 科 知 
识 ， 具 备 使 合适 的 算法 和 手中 的 任务 相 匹配 的 能 力 。 

未 来 ， 随 着 机 器 学 习 和 人 类 学 习 的 界限 逐渐 模糊 ， 将 会 很 有 趣 地 看 到 人 类 是 如 何 改变 
的 。 像 亚马逊 Mechanical Turk 这 样 的 众 包 服 务 ， 它 们 基于 人 力 市 场 中 的 智能 ， 提 供 了 短 时 间 
内 完成 简单 任务 的 人 类 智力 集群 。 也 许 有 一 天 ， 当 我 们 已 经 用 计算 机 来 执行 人 类 不 能 简单 完 
成 的 任务 时 ， 计 算 机 会 让 人 类 做 相反 的 事 : 深思 。 
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